fscrawler (https://github.com/dadoonet/fscrawler)를 사용하여 서로 관련이있는 데이터에서 별도로 실행되는 두 개의 파일 크롤러 작업이 있습니다. 이제 색인 생성 (자식 - 부모 관계 또는 평면 문서가 OK) 할 때 어떤 식 으로든 데이터를 병합하고자하므로 일부 미들웨어가 필요합니다. Logstash와 ES 5.0의 새로운 Ingest Node 기능을 살펴보면 아무도 맞춤형 프로세서 작성을 지원하지 않는 것으로 보입니다.인덱스 시간에 다른 소스의 데이터 병합
인덱스 시간에 이러한 종류의 병합/관계형 매핑을 수행 할 수 있습니까? 아니면 사후 처리를해야합니까?
EDIT : 하나의 작업이 json 형식으로 "기사"를 크롤링합니다. 아티클은 다른 위치에있는 여러 첨부 파일 (json의 첨부 파일 배열에 선언되어 있음)을 가질 수 있습니다. 두 번째 작업은 실제 첨부 파일 (예 : pdf ...)을 크롤링하고 해당 파일에 TIKA 처리를 적용합니다. 결국에는 첨부 파일의 내용을 포함하는 하나의 문서 유형을 갖고 싶습니다.
두 크롤러가 어떤 종류의 데이터를 보내고 있으며 결국 어떤 데이터를 얻으려고하는지 자세히 설명 할 수 있습니까? – Val
질문이 업데이트되었습니다. – frods
이것은 elasticsearch에 대한 질문처럼 들리지 않습니다. 두 소스의 데이터를 가져 와서 문서를 생성하는 전략이 필요하다는 소리가 들립니다. –