1
NFS 마운트에서 hadoop과 병렬 복사를 수행하는 가장 좋은 방법은 무엇입니까? 엄청난 수의 파일이있는 마운트가 있으며 hdfs에 복사해야합니다.HDFS 로의 병렬 복사
일부 옵션 :
- 실행 copyFromLocal.
- 복사 할지도 전용 작업을 쓸 수 있습니까?
안부, JD
NFS 마운트에서 hadoop과 병렬 복사를 수행하는 가장 좋은 방법은 무엇입니까? 엄청난 수의 파일이있는 마운트가 있으며 hdfs에 복사해야합니다.HDFS 로의 병렬 복사
일부 옵션 :
안부, JD
나는 키 문제는 NFS 링크의 소스 측에 무슨 생각? NAS 인 경우 copyFromLocal을 동시에 여러 대의 클라이언트 기계에서 실행하는 상황에서 더 나을 가능성이 큽니다. 심지어 고성능 NAS조차도 동일한 클라이언트에서 5 ~ 10 개 이상의 디스크를 동시에 읽을 때 불쾌감을 느끼게됩니다. > 1 클라이언트 - -> 5, 10, 50, 100 개 병렬 프로세스
프로세스 시작 비용이 너무 높고 distcp도 소스 NAS의 적중률을 제어 할 수 없으므로 M/R을 피할 것입니다. 이것이 병목 현상이 될 것입니다.)
아마도 실제 하드웨어에 대한 테스트가 가장 좋은 방법 일 것입니다. – wlk
distcp -f 소스 목록에있는 파일의 수는 수백만 개입니다. 내가 어떻게 될지 모르겠어 성능 : ( –
Jagaran
M/R 작업 아마 가장 낮은 성능을 것입니다. 왜 HDFS로 복사하기 전에 해당 파일을 병합하고 싶지 않아? 만약 내가 가정 파일의 수백만 있다면, 그들은 매우 있습니다 작은. – wlk