2016-11-06 1 views
0

문서 파일 (pdf, docx ...) 및 이미지 (tesseract 플러그인을 통해)의 내용을 색인화하는 데 Tika 툴킷을 사용하고 싶습니다.탄성 검색 첨부 플러그인 대 자체 tika 구현

나는 신축성 인조 스트 첨부 파일 플러그인 (https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html)을 시도했지만 OCR 빌드 - 인을 사용하지 않아도 잘 작동합니다. 그리고 내 파일의 base64를 보내야하므로 높은 메모리 사용량 + 탄성 색인은 쓸모없는 "데이터"(base64) 필드입니다.

저는 Tika 툴킷을 직접 사용하고 ElasticSearch에서 내용을 색인화하려고합니다.

더 나은 방법인지 궁금합니다.

+0

네가 맞아! 모든 게시물을 한 곳에서 수집했습니다. [ElasticSearch를위한 인게임 첨부물 플러그인 : 사용 하시겠습니까?] (https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use- 그것/) – SochiX

답변

1

글을 쓰고있는 시점에서 elasticsearch-mapper-attachments 플러그인에 Tesseract를 통해 OCR을 사용 설정하는 방법에 대한 문서는 거의 없습니다.

모든 것이 OCR의 작업을 Elasticsearch 외부에서 처리하고 콘텐츠를 개별적으로 인덱싱하는 것을 가리키고 있습니다.

참조 : https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

1

우리는 파일을 처리 할 수있는 시스템을 만든 (크롤링 -> OCR -> 색인 -> 검색). Ambar이라고합니다. 우리는 Ingest Attachment를 훌륭하고 견고하게 대체하기위한 아이디어로 그것을 만들었습니다.

우리는 ElasticSearch를 컨텍스트 추출기로 사용합니다. Tika + Tesseract + ImageMagick + PDF 용 사용자 지정 추출기.

우리는 Tika + ES 구현에 대한 간단하면서도 강력한 대안을 제공하기 위해 만들었습니다.

자세한 내용을 확인하려면 Github을 확인하십시오.