2011-11-22 1 views

답변

4

난 당신이 두 가지 옵션이 있습니다 말하고 싶지만, 모두

한 아파치 POI에 의해 구동 Apache Tika을 사용하는 것입니다. Tika는 텍스트 및 메타 데이터 추출 툴킷으로 POI를 적절하게 호출하여 Word 문서에서 상당히 풍부한 텍스트를 추출 할 수 있습니다. 결과는 Tika가 단어 문서의 내용에 대한 XHTML 스타일 XML을 제공한다는 것입니다.

다른 옵션은 POI에 비교적 최근에 추가 된 클래스 인 WordToHtmlConverter을 사용하는 것입니다. 이렇게하면 단어 문서가 HTML로 바뀌고 일반적으로 Tika보다 약간 더 많은 구조와 서식이 유지됩니다.

XML의 종류에 따라 다르지만,이 중 하나가 좋은 선택이 될 것입니다. 나는 당신이 당신의 샘플 파일들에 대해 둘 다 시도해보고, 당신의 문제 영역과 필요에 가장 적합한 것을 보아라.

+0

WordToHtmlConverter,이 클래스가 들어있는 Jar 파일입니다. 아직 개발 초기 단계이며 Jar 파일로 출시되지 않았다고 생각합니다. – user2434

+0

스크래치 패드 jar 파일에 있습니다. 최신 베타 버전 인 3.8 베타 4를 사용하고 기본 POI 병 + 스크래치 패드 병을 사용하고 싶습니다. – Gagravarr

5

HWPF 하위 프로젝트의 목적은 프로세스 Word 파일입니다.

아파치는 퀵 가이드 제공 ... StAX를, JDOM, XStream을 :

http://poi.apache.org/hwpf/index.html

그런 다음 ususal 방법으로 XML을 구축해야 XML로 데이터를 변환하는

http://poi.apache.org/hwpf/quick-guide.html

와 나는 또한 발견한다 :

http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/

당신이 DOCX 파일을 처리하려면, 당신은 OpenXML4J 하위 프로젝트를보고 할 수 있습니다 :

http://poi.apache.org/oxml4j/index.html

관련 문제