아파치 솔라리스에서 아랍어 PDF를 검색하려고합니다. 문제는 Tika가 (오른쪽에서 왼쪽으로) 대신 PDF를 역순으로 (왼쪽에서 오른쪽으로) 색인화하는 것입니다. 여기에이 문제에 대한아랍어 용 솔라리스 PDF 's
내가 찾은 참조 : 그러나
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
, 나는 PDFBOX 또는 최신 버전을 포함하는 방법을 모른다 ICU4J 내 아파치 solr. 내 Apache Solr Contrib/extraction/lib
폴더에 pdfbox-1.6.0.jar
및 icu4j-4.8.1.1.jar
이 포함되어 있습니다. 언급 된 파일을 제거하고 프로젝트 페이지의 최신 라이브러리로 대체하면 TIKA가 해당 파일을 사용하도록 강제 할 수 있습니까?
자바 서블릿에 대한 이전 경험이 없으므로 알려주십시오. 감사!