2011-08-13 7 views
1

NFS 마운트에서 hadoop과 병렬 복사를 수행하는 가장 좋은 방법은 무엇입니까? 엄청난 수의 파일이있는 마운트가 있으며 hdfs에 복사해야합니다.HDFS 로의 병렬 복사

일부 옵션 :

  • 사용 distcp 고립 된 방식으로 다중 스레드 방식으로

    1. 실행 copyFromLocal.
    2. 복사 할지도 전용 작업을 쓸 수 있습니까?

    안부, JD

  • +0

    아마도 실제 하드웨어에 대한 테스트가 가장 좋은 방법 일 것입니다. – wlk

    +0

    distcp -f 소스 목록에있는 파일의 수는 수백만 개입니다. 내가 어떻게 될지 모르겠어 성능 : ( – Jagaran

    +0

    M/R 작업 아마 가장 낮은 성능을 것입니다. 왜 HDFS로 복사하기 전에 해당 파일을 병합하고 싶지 않아? 만약 내가 가정 파일의 수백만 있다면, 그들은 매우 있습니다 작은. – wlk

    답변

    1

    나는 키 문제는 NFS 링크의 소스 측에 무슨 생각? NAS 인 경우 copyFromLocal을 동시에 여러 대의 클라이언트 기계에서 실행하는 상황에서 더 나을 가능성이 큽니다. 심지어 고성능 NAS조차도 동일한 클라이언트에서 5 ~ 10 개 이상의 디스크를 동시에 읽을 때 불쾌감을 느끼게됩니다. > 1 클라이언트 - -> 5, 10, 50, 100 개 병렬 프로세스

  • NAS -> 5 클라이언트 -> 5, 10, 50, 100

    • NAS : 나는 (모든 copyFromLocal와) 다음과 같은 모델 것 병렬 프로세스 각각

    프로세스 시작 비용이 너무 높고 distcp도 소스 NAS의 적중률을 제어 할 수 없으므로 M/R을 피할 것입니다. 이것이 병목 현상이 될 것입니다.)