1
MM + 레코드가있는 거대한 데이터 세트가 있으며 각 레코드에 고유 ID를 할당하려고합니다. 아래 코드를 시도했지만 행 ID가 순차적이므로 많은 시간이 필요합니다. 작업을 최적화하기 위해 메모리 매개 변수를 조정 해 보았습니다. 많은 성능을 얻을 수 없었습니다.각 레코드 스파크의 고유 ID 생성 방법
샘플 조각 :
JavaRDD<String> rawRdd=......
rawRdd.zipWithIndex()
.mapToPair(t->new Tuple2<Long,String>(t._2,t._1))
고유 ID를 할당 할 수있는 더 좋은 방법이 있습니까? 감사
감사의 말 : 접근 방식 2에 대해 더 자세히 알려주십시오. –
[나머지 예제] (https://www.mkyong.com/spring-mvc/spring-3-rest-hello-world-example/)에 따라 REST를 사용하여 중앙 집중식 ID를 만들고 spark에서 호출하여 id를 각각에 할당합니다. 기록. –