Apache POI를 사용하여 MS Word를 구문 분석하고 XML로 변환 할 수 있습니까?

Apache POI를 사용하여 MS Word를 XML 파일로 변환 할 수 있습니까?Apache POI를 사용하여 MS Word를 구문 분석하고 XML로 변환 할 수 있습니까?

만약 그렇다면, 그 일을하기위한 자습서를 가르쳐 주시겠습니까?

2011-11-22 user2434

난 당신이 두 가지 옵션이 있습니다 말하고 싶지만, 모두

한 아파치 POI에 의해 구동 Apache Tika을 사용하는 것입니다. Tika는 텍스트 및 메타 데이터 추출 툴킷으로 POI를 적절하게 호출하여 Word 문서에서 상당히 풍부한 텍스트를 추출 할 수 있습니다. 결과는 Tika가 단어 문서의 내용에 대한 XHTML 스타일 XML을 제공한다는 것입니다.

다른 옵션은 POI에 비교적 최근에 추가 된 클래스 인 WordToHtmlConverter을 사용하는 것입니다. 이렇게하면 단어 문서가 HTML로 바뀌고 일반적으로 Tika보다 약간 더 많은 구조와 서식이 유지됩니다.

XML의 종류에 따라 다르지만,이 중 하나가 좋은 선택이 될 것입니다. 나는 당신이 당신의 샘플 파일들에 대해 둘 다 시도해보고, 당신의 문제 영역과 필요에 가장 적합한 것을 보아라.

출처

2011-11-22 16:48:22 Gagravarr

WordToHtmlConverter,이 클래스가 들어있는 Jar 파일입니다. 아직 개발 초기 단계이며 Jar 파일로 출시되지 않았다고 생각합니다. – user2434

스크래치 패드 jar 파일에 있습니다. 최신 베타 버전 인 3.8 베타 4를 사용하고 기본 POI 병 + 스크래치 패드 병을 사용하고 싶습니다. – Gagravarr