2015-01-06 3 views

답변

1

당신은 Apache Tika을 시도 할 수 :

아파치 티카 ™ 툴킷을 감지하고 (예 : PPT, XLS 및 PDF 등) 만 다른 파일 형식 각지에서 메타 데이터 및 텍스트를 추출합니다. 이러한 모든 파일 형식은 단일 인터페이스를 통해 파싱 될 수 있으므로 Tika는 검색 엔진 색인 작성, 콘텐츠 분석, 번역 등에 유용합니다.

관련 문제