0

나는이 guide을 따라 실시간 웹 트래픽 데이터를 S3에로드하고 람다를 ES 도메인 인덱스에로드하도록 구성합니다. 현재 각 레코드별로 하나의 행만 포함하는 {GUID} .json과 같은 이름의 S3 버킷에 새 json 파일을 만듭니다. 예를 들어이 살아 간다 그래서 때AWS ElasticSearch 스트리밍 데이터로드

{"email":"[email protected]","firstname":"Hello","lastname":"World"} 

, 그것은 다음 람다 기능을 통해 ES로 얻을수 S3 버킷에 JSON 수백만 개의 파일을 업로드합니다. 스트리밍 데이터를로드하는 올바른 방법입니까? 또는 json 파일 당 10k 레코드, 예를 들어 S3 버킷에 업로드 할 때마다 매 시간마다 여러 레코드를 집계하는 예약 된 프로세스를 개발해야합니까? 나는 이것이 기술적으로 "실시간 스트리밍"이 아니라고 생각합니다.

제안 사항?

답변

1

AWS Kinesis Firehose를 사용하여 스트리밍 데이터를 ElasticSearch에로드 했습니까?

참조 : 그것은 당신의 끝에 노력의 필요성의 대부분을 데려 갈 것이다 https://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

.

+0

인사말. [여행 둘러보기] (http://stackoverflow.com/tour)와 [귀하의 답변은 다른성에 있습니다. 답변이 답변이 아닌 경우는 언제입니까?] (http://meta.stackexchange.com/questions/225370))를 사용하여 링크 전용 답변이 답변이 아닌 이유를 이해할 수 있습니다. 사소한 편집으로 답변을 향상시킬 수 있습니다. 고마워. – Drew