2016-10-14 5 views
0

fscrawler (https://github.com/dadoonet/fscrawler)를 사용하여 서로 관련이있는 데이터에서 별도로 실행되는 두 개의 파일 크롤러 작업이 있습니다. 이제 색인 생성 (자식 - 부모 관계 또는 평면 문서가 OK) 할 때 어떤 식 으로든 데이터를 병합하고자하므로 일부 미들웨어가 필요합니다. Logstash와 ES 5.0의 새로운 Ingest Node 기능을 살펴보면 아무도 맞춤형 프로세서 작성을 지원하지 않는 것으로 보입니다.인덱스 시간에 다른 소스의 데이터 병합

인덱스 시간에 이러한 종류의 병합/관계형 매핑을 수행 할 수 있습니까? 아니면 사후 처리를해야합니까?

EDIT : 하나의 작업이 json 형식으로 "기사"를 크롤링합니다. 아티클은 다른 위치에있는 여러 첨부 파일 (json의 첨부 파일 배열에 선언되어 있음)을 가질 수 있습니다. 두 번째 작업은 실제 첨부 파일 (예 : pdf ...)을 크롤링하고 해당 파일에 TIKA 처리를 적용합니다. 결국에는 첨부 파일의 내용을 포함하는 하나의 문서 유형을 갖고 싶습니다.

+0

두 크롤러가 어떤 종류의 데이터를 보내고 있으며 결국 어떤 데이터를 얻으려고하는지 자세히 설명 할 수 있습니까? – Val

+0

질문이 업데이트되었습니다. – frods

+1

이것은 elasticsearch에 대한 질문처럼 들리지 않습니다. 두 소스의 데이터를 가져 와서 문서를 생성하는 전략이 필요하다는 소리가 들립니다. –

답변

1

두 문서를 서로 다른 ES 인덱스에로드 한 경우 첨부 파일의 내용을 포함하지 않은 기사를 찾는 LS 입력을 가질 수 있습니다. 이러한 문서의 경우 다른 elasticsearch 색인 (LS의 elasticsearch {} 필터 참조)을 쿼리하고 문서 문서를 업데이트 할 수 있습니다.

+0

예, 사후 처리가 필요합니다. elasticsearch 필터를 몰랐습니다. 감사합니다! 답변으로 표시되었습니다. – frods

관련 문제