2011-11-22 3 views
0

나는 200 단어 이상이라는 정의를 찾아야한다. Wikipedia를 사용하여 목록에서 주어진 단어로 제목이 지정된 기사를 검색 한 다음 해당 정의의 원시 텍스트 (기사의 첫 번째 문장)를 추출합니다. 사실, 제 프로젝트에는 단어가 들어있는 Jlist가 있습니다 (simlpe 및 작성). Wikipedia를 사용하여 각 단어를 찾으려고합니다. 단어가 특수화 된 자료에서 추출되었으므로이 백과 사전을 선택했습니다. 내 질문은 : 어떻게 위키 피 디아 덤프에서 정의를 검색 할 수 있습니까? JWPL을 찾았지만 사용법을 찾지 못했습니다. 또 다른 질문은 : WikiTaxi를 사용하여 Wikipedia를 오프라인으로 만들면 어떻게 Java를 사용하여 정의를 추출 할 수 있습니까?위키 피 디아 기사의 첫번째 문장과 자바

감사합니다.

+2

질문이 있으십니까? –

+0

이 숙제입니까? 너는 무엇을 실제로 묻고 있니? – luketorjussen

+0

여기에 코드가 없습니다. 웹 크롤러를 에뮬레이트해야합니다. 한 가지 방법은 원하는 단어 목록을 찾을 수있는 페이지를 찾는 것입니다. 작품에 대한 하이퍼 링크를 추출하고 http://java-source.net/open-source/crawlers/java-web-crawler를 사용하십시오. lib 중 하나가 페이지를 크롤링하여 정보를 추출합니다 .. – harshit

답변

2

위키 백과

위키 백과 아마 이미 자신을 개발하는 것보다 당신을 위해 더 좋을 것이다 API를 가지고 않습니다 (자신의 허용 무엇인지에 대한 terms of use 참조) 라이센스 창조적 일반적이다. API here에 대한 자세한 정보

고려해야 할 또 다른 것은 정의를 원한다면 wiktionary을 사용하는 것이 더 나을 것입니다.

http://en.wiktionary.org/w/api.php?action=query&prop=revisions&titles=stack&rvprop=content : 여기

Wiktionary also has their own API

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=stack_overflow&rvprop=content 다음

이 위키 낱말 사전에서 단어 "스택"를 반환하는 예제 쿼리는 "스택 오버 플로우"에 위키 텍스트를 얻을 수있는 예제 API 호출입니다

출력을 파싱해야하지만 원하는 결과를 얻을 수 있습니다 ...

빠르고 더러운 화면 긁기를 원한다면 URL을 구성하는 것이 매우 쉽습니다. URL은 기본적으로 http://en.wikipedia.org/wiki/이고 삭제 된 단어 (예 : 공백이 _ 등으로 바뀝니다)

그 자리에서 작성된 예제 URL은 http://en.wikipedia.org/wiki/Stack_overflow 일 것이므로 위키피디아의 스택 오버플로 항목으로 바로 연결됩니다.

위키 백과의 본문 내용은이 주석 <!-- bodycontent -->에서 시작하며이 ID가있는 div 내에 포함되어 있습니다. mw-content-ltr 첫 번째 <p> 태그를 찾고있을 가능성이 높습니다.

관련 문제