나는 매우 큰 양의 데이터에 대해 최대 32 개의 감속기를 사용하여 hadoop 작업을 실행하려고합니다. 그러나 각 감속기의 출력을 보면 하나 이상의 감속기가 다른 값을 가진 키를 얻는 것을 볼 수 있습니다. 더 많은 감속기를 사용하는 동안이 문제를 피할 수 있습니까?Hadoop은 키를 여러 감속기 풀로 분할합니까?
LE : 텍스트 클래스를 대신 사용해 보았습니다.하지만 문제는 정상적으로 작동하지만 힙 공간이 부족하여 결국 jvm이 충돌한다는 것입니다. compareTo와는 다른 키 풀로 데이터를 분할하기 위해 hadoop이 사용하는 기준은 무엇입니까?
을, 그들은 여전히 여러 풀을 얻을. – skyel
맞춤형 비교 측정기를 사용하고 있습니까? 여러 감속기가 동일한 열쇠를 얻고 있음을 어떻게 알 수 있습니까? –
필자는 키가 필요한 튜플이기 때문에 필자는 필자의 필자에게 writeableComparable 클래스를 구현하고 compareTo의 튜플에있는 각 문자열을 비교한다. 모든 감속기는 출력에서 한 줄만 출력하고 동일한 감속기 출력 파일에 걸쳐 같은 줄의 사본을 가지고 있습니다. – skyel