Apache POI를 사용하여 MS Word를 XML 파일로 변환 할 수 있습니까?Apache POI를 사용하여 MS Word를 구문 분석하고 XML로 변환 할 수 있습니까?
만약 그렇다면, 그 일을하기위한 자습서를 가르쳐 주시겠습니까?
Apache POI를 사용하여 MS Word를 XML 파일로 변환 할 수 있습니까?Apache POI를 사용하여 MS Word를 구문 분석하고 XML로 변환 할 수 있습니까?
만약 그렇다면, 그 일을하기위한 자습서를 가르쳐 주시겠습니까?
난 당신이 두 가지 옵션이 있습니다 말하고 싶지만, 모두
한 아파치 POI에 의해 구동 Apache Tika을 사용하는 것입니다. Tika는 텍스트 및 메타 데이터 추출 툴킷으로 POI를 적절하게 호출하여 Word 문서에서 상당히 풍부한 텍스트를 추출 할 수 있습니다. 결과는 Tika가 단어 문서의 내용에 대한 XHTML 스타일 XML을 제공한다는 것입니다.
다른 옵션은 POI에 비교적 최근에 추가 된 클래스 인 WordToHtmlConverter을 사용하는 것입니다. 이렇게하면 단어 문서가 HTML로 바뀌고 일반적으로 Tika보다 약간 더 많은 구조와 서식이 유지됩니다.
XML의 종류에 따라 다르지만,이 중 하나가 좋은 선택이 될 것입니다. 나는 당신이 당신의 샘플 파일들에 대해 둘 다 시도해보고, 당신의 문제 영역과 필요에 가장 적합한 것을 보아라.
HWPF 하위 프로젝트의 목적은 프로세스 Word 파일입니다.
아파치는 퀵 가이드 제공 ... StAX를, JDOM, XStream을 :
http://poi.apache.org/hwpf/index.html
그런 다음 ususal 방법으로 XML을 구축해야 XML로 데이터를 변환하는
http://poi.apache.org/hwpf/quick-guide.html
와 나는 또한 발견한다 :
http://sanjaal.com/java/tag/simple-java-tutorial-to-read-microsoft-document-in-java/
당신이 DOCX 파일을 처리하려면, 당신은 OpenXML4J 하위 프로젝트를보고 할 수 있습니다 :
WordToHtmlConverter,이 클래스가 들어있는 Jar 파일입니다. 아직 개발 초기 단계이며 Jar 파일로 출시되지 않았다고 생각합니다. – user2434
스크래치 패드 jar 파일에 있습니다. 최신 베타 버전 인 3.8 베타 4를 사용하고 기본 POI 병 + 스크래치 패드 병을 사용하고 싶습니다. – Gagravarr