2011-10-27 7 views
0

lucene의 ExtractWikipedia 도구를 사용하여 최신 영어 wiki 페이지의 bz2 덤프를 추출했습니다. 결과 .txt 파일에는 여전히 위키 백과 마크 업 언어가 있습니다. 디렉토리의 각 파일에서 내용을 구문 분석하기 위해 실행할 수있는 도구 또는 파이썬 스크립트가 있습니까? (예 : 내용 만 마크 업이 포함되지 않도록 파일 수정)디렉토리의 파일에서 위키 피 디아 마크 업을 구문 분석합니다.

또는이를 수행 할 수있는 Java 라이브러리 또는 패키지가 있습니까? Lucene 클래스 인 ExtractWikipedia에 그것을 포함시키기를 희망합니다.

답변

0

당신은

  • 생성을 heirarchial 카테고리
  • 생성 리디렉션을 제거 위키 텍스트 언어를 제거 그것은 (당신이 펄 먼저 설치해야합니다)하는 준비 펄 스크립트입니다 이것을 wikiprep을 시도 할 수 있습니다 쉽게 파싱 할 수있는 XML 형식

http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

모든 위키 백과 바보를 실행하려면 번을 실행하는 데 몇 시간이 걸릴 수 있으며 6GB RAM에 대해서는 대용량 메모리가 필요합니다.

관련 문제