-1
Java를 사용하여 이진 파일의 내용을 구문 분석하고 텍스트를 추출 할 수있는 방법은 무엇입니까? lucene을 사용하여 이진 파일의 내용을 색인 할 수 있어야합니다. 현재 지원하는 파일 형식은 pdf, html, word, excel, ppt, html입니다.자바를 사용하여 이진 파일에서 텍스트를 추출해야합니다.
Java를 사용하여 이진 파일의 내용을 구문 분석하고 텍스트를 추출 할 수있는 방법은 무엇입니까? lucene을 사용하여 이진 파일의 내용을 색인 할 수 있어야합니다. 현재 지원하는 파일 형식은 pdf, html, word, excel, ppt, html입니다.자바를 사용하여 이진 파일에서 텍스트를 추출해야합니다.
당신은 Apache Tika을 시도 할 수 :
아파치 티카 ™ 툴킷을 감지하고 (예 : PPT, XLS 및 PDF 등) 만 다른 파일 형식 각지에서 메타 데이터 및 텍스트를 추출합니다. 이러한 모든 파일 형식은 단일 인터페이스를 통해 파싱 될 수 있으므로 Tika는 검색 엔진 색인 작성, 콘텐츠 분석, 번역 등에 유용합니다.