2014-04-16 5 views
1

우리는 CDH5에 대해 Mesos 0.17에서 Spark 0.9.1을 실행합니다. 지금까지 우리는 작은 파일에 filecrush 프로젝트를 실행할 수 있도록 'mr1'버전의 CDH 시리즈를 계속 사용했습니다. 여러 가지 이유로 MR-2로 업그레이드 할 자유가 있습니다.HDFS에서 작은 파일 분쇄

Hadoop의 map/reduce 외부에서이를 수행 할 수있는 도구가 있습니까? 오늘날 우리가 사용하는 filecrush 라이브러리는 아주 드문 일이므로 패턴을 Spark로 변환하는 것은 간단하지 않습니다.

답변

0

MR1 코드는 일반적으로 MR2 라이브러리에 대한 재 컴파일을 사용하여 변경되거나 거의 작동하지 않습니다. 작동하지 않습니까? 이것은 아마도 매우 간단합니다.

당신은 이것을 아주 직접적으로 Spark로 번역하지 않겠지 만, 많은 파일을 매핑하고 결과를 다른 파티션으로 출력함으로써 비슷한 효과를 얻을 수 있습니다. Spark이 HDFS를 사용하고 InputFormat을 사용하여 데이터를 분할로 읽는 것과 동일한 문제가 발생할 수 있습니다. 이는 문제가 어디에서 비롯되었는지를 나타냅니다.

+0

문제는 우리가 메소에서 실행된다는 것입니다. 내가 아는 한, MRV2는 오늘 메소 스에서는 작동하지 않습니다 (원사 만). Map/Reduce 라이브러리와는 별도로이 솔루션을 원합니다. –