2012-10-20 2 views
0

모든 종류의 파일 텍스트를 추출하는 데 Apache Tika를 사용합니다. 이제는 올바른 MIME 유형의 파일을 탐지하는 데이 파일을 사용하려고합니다.Tika : Js, Css의 MIME 유형 감지

이하지만 ...위한 ...

  • PDF - 파일 (application/pdf)
  • HTML - 파일 (text/html)

예를 들어 작동

하지 않는 :

  • CSS 파일 (text/css 대신 text/plain)
  • 자바 스크립트 파일 (대신 text/javascripttext/plain)
  • ...

(이 마임 타입 결과는 티카 - 응용 프로그램에서도 내 응용 프로그램에서 와서).

일반 응용 프로그램의 경우 text/css과 같은 정확한 MIME 유형이 필요합니다 (text/plain). 티카와 함께 할 수 있습니까?

+0

파일 이름을 Tika에 제공하고 있습니까? – Gagravarr

+0

예, 내 응용 프로그램과 tika-app는 파일 이름을 설정하기 위해'Metadata.RESOURCE_NAME_KEY'를 사용합니다. – Sonson123

답변

1

두 가지 작업을 수행해야합니다. 먼저 Tika에 파일 이름을 제공해야합니다. 따라서이 파일을 사용하여 일반 텍스트 유형을 적절한 하위 유형 (CSS, JS 등)으로 특수화 할 수 있습니다. 두 번째로, 충분히 새로운 Tika 버전을 사용하고 있는지 확인해야합니다.

난 그냥, 그리고에 파일 이름을 지나가는 티카의 최신 버전으로 시도했습니다, 그것은 JS와 잘 CSS 파일을 검색 할 수 있습니다 :로 또한

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css 
text/css 

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js 
application/javascript 

, 티카의 최신 버전 (r1400795)에는 JS 및 CSS 감지가 작동하는지 자동으로 확인하는 단위 테스트가 있으므로 잘 작동하는지 이중으로 확인할 수 있습니다.

+1

네가 맞다. 이전 릴리스 인 tika 1.2에서도'DefaultDetector'의 결과는 정확하다. 나는'AutoDetectParser'를 사용했다. CSS-file의 content-type은 항상'text/plain' 인 것처럼 보인다. – Sonson123