0

나는 가능한 한 Stackoverflow를 통해 es-hadoop/es-spark 프로젝트에서 대량 인덱싱을 사용합니다. 그렇지 않으면 기본 batchsize는 BulkProcessor (5Mb)에 따른 것입니다. 이를 변경하기위한 구성이 있습니까?Elasticsearch hadoop 대량 일괄 처리 크기를 구성

코드에 JavaEsSparkSQL.saveToEs(dataset,index)을 사용하고 있으며 성능을 조정하는 데 사용할 수있는 구성이 무엇인지 알고 싶습니다. 이것은 데이터 집합의 분할과도 관련이 있습니다. 배치에 대한 그들의 구성 페이지 (바이트)

es.batch.size.bytes (default 1mb) 

크기에

답변

0

찾을 설정 Elasticsearch 벌크 API를 사용하여 작성합니다. 벌크 크기는 타스크 인스턴스별로 할당됩니다. Elasticsearch를 때리는 런타임에서 전체 대량 크기를 얻기 위해 Hadoop 작업 내의 작업 수를 항상 곱하십시오.

es.batch.size.entries (default 1000) 

Elasticsearch bulk API를 사용하여 일괄 쓰기의 크기 (항목에서) - (0은 비활성화 됨). es.batch.size.bytes와 함께 사용하면 일괄 처리가 업데이트되고 일괄 처리 업데이트가 실행됩니다. 크기와 마찬가지로이 설정은 타스크 인스턴스 당입니다. 런타임에 실행중인 Hadoop 작업의 총 수와 곱해집니다.

관련 문제