2010-03-01 1 views

답변

1

예. 그 프로그램이 열기 COM을 통해 Word에서 파일

. MS 워드라고, 다른 한편으로는. 프로그래밍 텍스트로 저장되고, 루씬 기본적으로 Word 문서를 읽을 수 없습니다?

+0

죄송합니다. PHP zend framework lucene을 사용하고 있습니다. 어떤 아이디어? 감사합니다 :) – noobplusplus

+0

@anoob : 기본적으로 Word 문서를 인덱싱 할 수있게 해주는 Lucene 추가 기능을 찾기 시작할 것입니다. 나는 그들이 존재한다고 확신한다. 가지고있을 때 설치하고 문제가 없어집니다. PHP로 무엇이든 개발할 필요가 없습니다. Windows를 사용하고 있지 않으므로 아무 것도 찾지 못한 경우 MS Word 사본을 설치하고 제안 된대로 COM을 통해 작업하십시오. – Tomalak

+0

http://lucene.apache.org/tika/ 예 :-) – JasonPlutext

0

당신은 정말 프로그램을 필요로하는 경우 여기에 one이 있습니다. 시도하지는 않았지만 촬영할 수는 있습니다. 그렇지 않으면, 당신은 단지 use COM/vbscript 일 수 있습니다.

0

POI (http://poi.apache.org/)를 사용하면 이전 이진 DOC 형식을 색인 할 수 있어야합니다. 관련 코드 스 니펫은 http://kalanir.blogspot.com/2008/08/how-to-index-microsoft-format-documents.html에서 찾을 수 있습니다.

DOCX의 경우 기본적으로 XML 및 리소스 파일이 포함 된 ZIP 파일이므로 실제 텍스트가 포함 된 XML 파일을 쉽게 찾을 수 있어야합니다 (단어/document.xml이라고 생각합니다) 및 색인 생성 ... 포함 된 텍스트 (모든 XML 데이터를 제거한 후) ...

0

OpenXML SDK을 사용하면 DOCX 파일에서 텍스트를 쉽게 제거 할 수 있습니다. 그래도 .doc에서는 작동하지 않습니다. 아마도 MS Word와 COM을 사용해야 할 것입니다.

관련 문제