2016-09-05 4 views
-2

나는 탄성 검색 - 첨부 매퍼를 사용했지만 PDF (특히 선호하는 종류의 데이터베이스)가 아닌 PDF로 된 다중 언어 문서 색인 생성에 어려움을 겪었다. 신축성있는 검색? 나는 퍼지 또는 전문 검색을 필요로하지 않으며, mysql과 같은 간단한 'like'가 최상일 것입니다.문서에서 색인 및 검색하는 가장 좋은 방법

+0

귀하의 질문으로는 충분한 정보를 얻을 수는 없지만 상황에 대한 정보를 제공하려고합니다. 어쩌면 당신은 더 많은 정보를 줄 수 있습니다. – hkulekci

답변

0

탄성 검색은 검색 및 분석 기술입니다. 문제는 PDF에서 텍스트를 추출하는 것입니다. 나는 당신이 사과와 오렌지를 섞는다 고 생각합니다. 이 pdf 및 해당 내용을 검색 하시겠습니까? 첫째, 파이프 라인을 만들어야합니다.

예를 들어 검색 가능한 데이터를 저장하기위한 색인을 생성하며 이는 내 입력란입니다. 그 후에 나는 Apache Tika (나는 파일에 텍스트를 추가하고, db 테이블, 메모리 데이터베이스 등)과 일부 사용자 정의 스크립트로 메타 데이터와 원시 텍스트를 PDF에서 가져올 것이다. 그런 다음이 PDF의 식별자를 사용하여 이러한 데이터를 색인에 색인화합니다.

이 문제는 간단한 시나리오입니다.

큰 검색어 나 전체 텍스트가없는 경우에는 Elasticsearch가 필요하지 않지만 Elasticsearch는 다른 검색보다 쉽기 때문에 Elasticsearch를 사용할 수도 있습니다. 또한 더 많은 분석을 위해 집계를 사용하고 doument relevance 옵션을 사용하여보다 관련성이 높은 문서를 얻을 수 있습니다. 그들은 검색을위한 기적 특징입니다.

PPT, XLS, PDF 등의 plugin도 있습니다.이 플러그인은 Apache Tika도 사용합니다. 하지만 ES 5.x에서는 인제 스트 노드 API로이 플러그인을 변경해야합니다. 이 플러그 인은 ES 5.x에서 인제 스트 프로세서로 사용할 수 있습니다

+1

안녕하세요, 탄성 검색은 그를 base64 형식으로 저장하여 문서를 색인 할 수있는 "첨부 파일 매퍼"플러그인이 있습니다 – user3625518

+0

하지만 그 상황에서 pdf 파일 콘텐츠를 검색 하시겠습니까? – hkulekci

+0

PDF 문서를 가져 와서 base64로 변환하여 쿼리별로 탄력적으로 저장 한 다음 문서 내에서 검색 쿼리를 실행할 수 있습니다. – user3625518

관련 문제