아랍어로 된 Jackrabbit 텍스트 검색 PDF 파일

Jackrabbit에서 다음 코드를 사용하여 아랍어 텍스트 파일의 텍스트 검색을 수행 할 수 있습니다. 그러나 아랍어 PDF 파일의 경우 동일한 검색이 작동하지 않습니다. 만약 내가 비할 바깥에있는 일부 아랍어 텍스트를 주면, 그것은 정확한 결과를 낳지 만, 내가 파일 안에 아라식 단어를 주면, 결과가 나에게 주어지지 않는다.아랍어로 된 Jackrabbit 텍스트 검색 PDF 파일

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2); 

QueryResult result = query.execute(); 
RowIterator ri = result.getRows(); 

    while (ri.hasNext()) {  
    Row row = ri.nextRow(); 
    System.out.println("Row: " + row.toString()); 
}

덕분에

출처

2011-04-13 Renju

아마도 PDFBox 파일을 구문 분석 할 수 없습니다. In this case, there should be a warning in the log file.

출처

2011-04-28 11:51:16

예 저장소에서 PDF 파일을 추가하는 동안 경고 메시지가 표시됩니다. 하지만 PDFBox가 아랍어 콘텐츠로 파일을 구문 분석하도록하기 위해 내가 할 수있는 일을 말해 줄 수 있습니까? – Renju

PDFBox에 익숙하지 않아서이 질문에 답할 수 없습니다. 빠른 Google 검색 결과가 있지만 결과는 PDFBox의 최신 버전 (아직 베타 버전 일 가능성이 있음)이 분석 할 수 있어야합니다. 그렇지 않은 경우 PDFBox 목록에서 질문하거나 여기에서 다른 질문을하십시오. –

아랍어로 된 Jackrabbit 텍스트 검색 PDF 파일

답변

관련 문제