2009-08-22 3 views
1

위키 피 디아 덤프 파일을 처리해야하는 java 프로젝트를 수행하고 있습니다. 위키피디아 기사에서 키워드를 추출하기위한 라이브러리를 찾고 있습니다 ... 기본적으로 위키피디아 XML 덤프의 모든 태그 페이지를 읽고 항목 및 카테고리 목록과 비교하고 올바른 경우 선택하여 추가합니다. 내 결과에. 나는 덤프를 읽거나 위키 피 디아 결과를 쓰는 것에 관심이 없다. 위키피디아 기사의 제목과 텍스트에서 주제를 검색하도록하는 라이브러리에 대해서만 알고 싶다. 예를 들면 ... 입력이 "개"나는 강아지에 관한 위키 피 디아 기사를 원하고 강아지 카테고리 아래의 모든 페이지가 가능하다면.주제별로 검색하고 Wikipedia의 기사에서 키워드를 추출하십시오.

위키 피 디아에서 범용 라이브러리가 지정되어 있지 않아도 상관 없습니다. 인수로 wikitext를 넣고 카테고리를 포함한 키워드 목록을 받아야합니다 ... Wikipedia-Miner 또는 Java Wikipedia Library과 같이 작동하는 일부 위키 피 디아 라이브러리를 찾았습니다. 그러나 처음에는 mysql을 설치해야하고 분석하고 싶습니다. 텍스트를 데이터베이스에 저장하지 않고

모든 종류의 도움이나 제안을 잘 받았습니다. :)

답변

관련 문제