2017-02-08 6 views
0

elasticsearchdocumentation에서 전체 텍스트 검색을 읽었지 만 PDF 파일 색인 생성에 사용되는 알고리즘을 이해할 수 없습니다.PDF 파일과 같은 구조화되지 않은 데이터를 인덱싱하는 Elasticsearch의 배경은 무엇입니까?

+0

정확히 무엇이 당신의 질문입니까? 신축성있는 매장과 pdf 검색 방법을 알고 싶습니까? – hkulekci

+0

@hkulekci 그래, elasticsearch에서 사용하는 알고리즘. – Ashley

답변

2

두꺼운 문서 아래 Elasticsearch는 Apache Tika 라이브러리를 사용하여 다른 파일 형식의 텍스트 추출을 수행하며 Tika의 PDF 파서는 PDFBox Java 라이브러리를 사용하여 PDF 형식의 텍스트를 추출합니다. 그래서,이 오픈 소스 라이브러리에 의해 마술을 한 후에 추출 된 텍스트는 일반적인 Elasticsearch 문서로 색인됩니다.

관련 문제