2014-12-10 2 views
0

Wikipedia의 항목에서 두 개 또는 세 개의 용어를 찾아보고 싶습니다. 특히, 일부 용어가 항목간에 첫 번째 단락 (추상)에서 반복되는지 확인하려고합니다. 직접 또는 dbpedia를 통해 이루어질 수 있습니다. 감사합니다.쿼리 wikipedia

+1

어떤 언어를 사용합니까? 당신이 달성하고자하는 것을 보여줄 수 있습니까? – leo

+0

파이썬이나 SPARQL에있을 수 있습니다. 이것은 다른 stackoverflow 사용자의 예제입니다. SELECT? uri? txt WHERE { ? uri rdfs : label? txt. ? txt bif : "이집트"및 "피라미드"가 포함되어 있습니다. " } 문제는 ​​단지 catebory 레이블에있는 키워드 만 반환한다는 것입니다. 두 키워드가 모두 텍스트 또는 요약에 포함 된 모든 문서를 찾고 싶습니다. – Arie

답변

2

Mediawiki API를 사용하면 해당 키워드가 포함 된 기사를 찾을 수 있습니다. API:Search 설명서를 참조하십시오.

원하는 작업을 수행하려면 해당 키워드가있는 기사를 찾아 텍스트를 구문 분석하여 첫 번째 단락에 있는지 확인해야합니다. 이와

:

?action=parse&page=Nicolas_Cage&prop=text&section=0 

당신은 페이지의 첫 번째 섹션의 HTML을 얻을 수 있습니다 (이 post 참조).