문서 파일 (pdf, docx ...) 및 이미지 (tesseract 플러그인을 통해)의 내용을 색인화하는 데 Tika 툴킷을 사용하고 싶습니다.탄성 검색 첨부 플러그인 대 자체 tika 구현
나는 신축성 인조 스트 첨부 파일 플러그인 (https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html)을 시도했지만 OCR 빌드 - 인을 사용하지 않아도 잘 작동합니다. 그리고 내 파일의 base64를 보내야하므로 높은 메모리 사용량 + 탄성 색인은 쓸모없는 "데이터"(base64) 필드입니다.
저는 Tika 툴킷을 직접 사용하고 ElasticSearch에서 내용을 색인화하려고합니다.
더 나은 방법인지 궁금합니다.
네가 맞아! 모든 게시물을 한 곳에서 수집했습니다. [ElasticSearch를위한 인게임 첨부물 플러그인 : 사용 하시겠습니까?] (https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use- 그것/) – SochiX