2013-09-27 2 views
0

각 cachedDistributed 파일에 map-reduce 프로그램의 오버 헤드가 얼마나됩니까? 나는 50 개의 cachedDistributed 파일 (매우 작은 크기)을 가질 필요가있는 mapreduce 프로그램을 가지고 있는데, 이는 내가 가지고있는 오버 헤드가 단지 1 개의 cachedDistributed 파일을 가지고있는 것보다 훨씬 더 큰 것 같다. 그게 사실이야? 필자가 이해하는 한, mached를 실행하는 각 시스템에 cachedDistributed 파일이 복사되므로, cachedDistributed 파일에 대한 액세스는 로컬이므로 너무 많은 오버 헤드가 없어야합니다.cachedDistributed 파일이 mapreduce 프로그램에서 얼마나 많은 오버 헤드가 있습니까?

답변

0

아카이브 파일을 사용하려고 할 수도 있습니다 (파일은 태스크 노드에서 자동 아카이브되지 않습니다). 당신은 의미로 DistributedCache에 아카이브 파일을 추가 할 수 있습니다 : GenericOptionsParser을 사용하는 도구와

  • . 그런 다음 배포 할 파일을 -archives 옵션에 대한 인수로 쉼표로 구분 된 URI 목록으로 지정할 수 있습니다. 구성표를 지정하지 않으면 파일이 로컬로 간주됩니다. 당신이 일을 시작할 때, 로컬 파일이 분산 파일 시스템 (HDFS 자주) 분산 캐시 API와

    $> hadoop jar foo.jar ClassUsingDistributedCacheFile -archives archive.jar input output

  • 에 복사 (Javadoc을 참조). 자바 API 파일을 복사하지 않습니다 있도록 API로, URI에 의해 지정된 파일 (공유 파일 시스템에 있어야합니다.

을 작업이 실행되기 전에, tasktracker 복사 분산 파일 시스템에서 파일에 로컬 디스크, 당신이 말한대로. 난 오버 헤드가 HDFS에서 모든 작은 파일을 검색에서 온 것 같아

관련 문제