Apache Tika 내에 application/octet-stream
유형의 구문 분석기가 있습니까? 나는 그것이 해석 할 수없는 스트림이라고 생각한다.알 수없는 컨텐츠 유형의 문서에서 텍스트 추출하기
ODS 문서, MS 문서 및 PDF 파일을 구문 분석하면됩니다. new Tika().parseToString(file);
이면 충분합니다. 하지만 콘텐츠 유형이 감지되지 않으면 어떻게 될지 알 수 없습니다. ->application/octet-stream
이 기본값입니다. 이러한 유형 중 하나 인 문서에서 텍스트를 추출 할 기회가 있지만 contentType 감지기가 해당 유형을 감지하지 못했습니다.
사용자가 문서를 지원하는 형식이 아니라고 알리는 대신 무엇을 시도해야합니까?
또는 결과로 application/octet-stream
콘텐츠 유형이 우리가 읽을 수없는 신호입니까? 아니면 "이 문제를 해결하는 방법을 알아야합니다"?
감사합니다. 그리고 mime 범위를 가지고있을 때 Tika에서 어떻게 작동합니까? 유형 및 파일 확장명의 범위를 사용하여 작업 할 수 있습니까? 기본적으로 tika-mimetypes.xml 파일에서 모든 MIME 유형과 파일 확장자를로드하며 MimeTypes.types 및 MimeTypes.registry에로드됩니다. 내 자신의 tika-mimetypes.xml을 만들어야합니까? 또는 MIME 형식 정의로 다른 파일을로드 할 수 있습니까? 파일을로드하는 MimeTypes.getDefaultMimeTypes() 만 있습니다. – lisak
기본적으로있는 일부 MIME 유형의 검색을 제거 하시겠습니까? 그렇다면 지금 쉬운 옵션은 tika-mimetypes.xml을 커스터마이징하고 버전을 클래스 패스보다 먼저 가져 와서 환경 설정에 사용하도록하는 것입니다. 새로운 mimetypes를 찾고 싶다면 패치를 제출하는 것이 가장 쉽습니다. – Gagravarr
mime 유형의 90 %에 대한 탐지를 제거하고 싶습니다. 이러한 확장자 인 html, doc, docx, odt, txt, rtf, srt, sub, pdf, ods, odp, xls, ppt, msg에 해당하는 MIME 유형 만 검색해야합니다. MIME 형식이 다른 다른 문서는 거부해야합니다. ContainerAwareDetector와 MimeTypes 감지기를 폴백 감지기로 사용합니다. 좋은 선택이 되길 바랍니다. – lisak