디렉토리의 파일에서 위키 피 디아 마크 업을 구문 분석합니다.

lucene의 ExtractWikipedia 도구를 사용하여 최신 영어 wiki 페이지의 bz2 덤프를 추출했습니다. 결과 .txt 파일에는 여전히 위키 백과 마크 업 언어가 있습니다. 디렉토리의 각 파일에서 내용을 구문 분석하기 위해 실행할 수있는 도구 또는 파이썬 스크립트가 있습니까? (예 : 내용 만 마크 업이 포함되지 않도록 파일 수정)디렉토리의 파일에서 위키 피 디아 마크 업을 구문 분석합니다.

또는이를 수행 할 수있는 Java 라이브러리 또는 패키지가 있습니까? Lucene 클래스 인 ExtractWikipedia에 그것을 포함시키기를 희망합니다.

출처

2011-10-27 Dan Q