2012-11-27 1 views
6

아파치 솔라리스에서 아랍어 PDF를 검색하려고합니다. 문제는 Tika가 (오른쪽에서 왼쪽으로) 대신 PDF를 역순으로 (왼쪽에서 오른쪽으로) 색인화하는 것입니다. 여기에이 문제에 대한아랍어 용 솔라리스 PDF 's

내가 찾은 참조 : 그러나

, 나는 PDFBOX 또는 최신 버전을 포함하는 방법을 모른다 ICU4J 내 아파치 solr. 내 Apache Solr Contrib/extraction/lib 폴더에 pdfbox-1.6.0.jaricu4j-4.8.1.1.jar이 포함되어 있습니다. 언급 된 파일을 제거하고 프로젝트 페이지의 최신 라이브러리로 대체하면 TIKA가 해당 파일을 사용하도록 강제 할 수 있습니까?

자바 서블릿에 대한 이전 경험이 없으므로 알려주십시오. 감사!

답변

0

질문에서 나는 Drupal을 Apache Solr 인터페이스로 사용하고 있다고 가정합니다. Tika는 Solr에서 이진 문서를 보내거나 Solr에게 문서를 보내기 전에 사용할 수 있습니다. Drupal Solr Attachments 모듈에는 "Tika (로컬 Java 응용 프로그램)"에 대한 설정이 있습니다. 제공된 두 번째 링크에서 그들은 Solr Attachments 모듈을 패치하여 Tika 대신 PDFBox를 사용하여 Solr에 보내기 전에 바이너리 파일을 구문 분석했습니다. Drupal을 사용하지 않는다면 비슷한 접근법을 시도해야합니다.