나는 탄성 검색 - 첨부 매퍼를 사용했지만 PDF (특히 선호하는 종류의 데이터베이스)가 아닌 PDF로 된 다중 언어 문서 색인 생성에 어려움을 겪었다. 신축성있는 검색? 나는 퍼지 또는 전문 검색을 필요로하지 않으며, mysql과 같은 간단한 'like'가 최상일 것입니다.문서에서 색인 및 검색하는 가장 좋은 방법
답변
탄성 검색은 검색 및 분석 기술입니다. 문제는 PDF에서 텍스트를 추출하는 것입니다. 나는 당신이 사과와 오렌지를 섞는다 고 생각합니다. 이 pdf 및 해당 내용을 검색 하시겠습니까? 첫째, 파이프 라인을 만들어야합니다.
예를 들어 검색 가능한 데이터를 저장하기위한 색인을 생성하며 이는 내 입력란입니다. 그 후에 나는 Apache Tika (나는 파일에 텍스트를 추가하고, db 테이블, 메모리 데이터베이스 등)과 일부 사용자 정의 스크립트로 메타 데이터와 원시 텍스트를 PDF에서 가져올 것이다. 그런 다음이 PDF의 식별자를 사용하여 이러한 데이터를 색인에 색인화합니다.
이 문제는 간단한 시나리오입니다.
큰 검색어 나 전체 텍스트가없는 경우에는 Elasticsearch가 필요하지 않지만 Elasticsearch는 다른 검색보다 쉽기 때문에 Elasticsearch를 사용할 수도 있습니다. 또한 더 많은 분석을 위해 집계를 사용하고 doument relevance 옵션을 사용하여보다 관련성이 높은 문서를 얻을 수 있습니다. 그들은 검색을위한 기적 특징입니다.
PPT, XLS, PDF 등의 plugin도 있습니다.이 플러그인은 Apache Tika도 사용합니다. 하지만 ES 5.x에서는 인제 스트 노드 API로이 플러그인을 변경해야합니다. 이 플러그 인은 ES 5.x에서 인제 스트 프로세서로 사용할 수 있습니다
안녕하세요, 탄성 검색은 그를 base64 형식으로 저장하여 문서를 색인 할 수있는 "첨부 파일 매퍼"플러그인이 있습니다 – user3625518
하지만 그 상황에서 pdf 파일 콘텐츠를 검색 하시겠습니까? – hkulekci
PDF 문서를 가져 와서 base64로 변환하여 쿼리별로 탄력적으로 저장 한 다음 문서 내에서 검색 쿼리를 실행할 수 있습니다. – user3625518
- 1. CVS 저장소를 색인 및 검색하는 방법
- 2. 서비스 속성을 저장/검색하는 가장 좋은 방법
- 3. 서버에서 이미지를 저장하고 검색하는 가장 좋은 방법
- 4. 심포니 2의 기능을 검색하는 가장 좋은 방법
- 5. 이미지를 저장하고 검색하는 가장 좋은 방법
- 6. URL 목록을 저장하고 검색하는 가장 좋은 방법
- 7. 위치 필드를 저장하고 검색하는 가장 좋은 방법
- 8. 거대한 단어 파일을 검색하는 가장 좋은 방법
- 9. 배열의 문자열을 검색하는 가장 좋은 방법
- 10. 숫자 목록을 저장하고 검색하는 가장 좋은 방법
- 11. EmberJS에서 템플릿에서 데이터를 검색하는 가장 좋은 방법
- 12. Android에서 LAN 네트워크를 검색하는 가장 좋은 방법
- 13. XML 태그 값을 검색하는 가장 좋은 방법
- 14. 여러 열을 검색하는 가장 좋은 방법
- 15. GO : 구조체에서 요소를 검색하는 가장 좋은 방법
- 16. Typescript : 객체를 생성, 저장 및 검색하는 가장 좋은 방법
- 17. Java로 대용량 데이터 세트를 저장하고 검색하는 가장 좋은 방법
- 18. 네트워크 드라이브의 파일에서 문자열을 검색하는 가장 좋은 방법
- 19. DOM4j 문서에서 요소 이름을 효율적으로 검색하는 방법
- 20. 전화 번호를 검색하는 가장 좋은 방법은 무엇입니까?
- 21. .doc 파일을 색인 생성하고 검색하는 방법
- 22. 개체의 특정 특성을 검색하는 가장 좋은 방법입니다.
- 23. 파일을 검색하는 가장 효율적인 방법
- 24. 단일 엔티티 Google 검색 엔진을 검색하는 가장 좋은 방법
- 25. PHP의 XML 문서에서 주석을 검색하는 방법
- 26. 쉼표로 구분 된 mysql 필드를 검색하는 가장 좋은 방법
- 27. Java의 Office 문서에서 PDF를 만드는 좋은 방법
- 28. QML Modal 대화 상자에서 값을 검색하는 가장 좋은 방법
- 29. Java : 여러 스레드에서 타이밍을 검색하는 가장 좋은 방법
- 30. MS Word 문서에서 데이터베이스를 만드는 가장 좋은 방법은 무엇입니까?
귀하의 질문으로는 충분한 정보를 얻을 수는 없지만 상황에 대한 정보를 제공하려고합니다. 어쩌면 당신은 더 많은 정보를 줄 수 있습니다. – hkulekci