분산 캐시 기능을 사용하여 추가하려는 파일 목록이 있습니다. 다른 파일을 다른 작업을 줄이기 위해 필요합니다. 예를 들어, 파일 A는 reduce 1로 필요하지만 파일 B는 reduce 2로 필요합니다. Job Conf에서 두 파일 모두 DistributedCache.addCacheFile() 메소드를 사용하여 추가됩니다. reduce 클래스 구성 메소드에서 DistributedCache.getCacheFiles()를 사용하여 파일을 가져옵니다. 파일 A는 reduce 1의 메모리에만, 파일 B는 reduce 2의 메모리에만 가질 수 있습니다. 또는 reduce 작업이 시작되기 전에 두 파일이 모두 메모리에 추가됩니다.분산 캐시 하둡 및 확장 성
이것을 이해한다면 프로그램에 분산 캐시를 사용할 수 있습니다. 내 관심사는 확장성에 관한 것입니다. 파일이 큽니다. 따라서 reduce 작업은 두 파일을 메모리에 둘 수 없습니다. 그러나 파일 중 하나를 보유 할 수 있습니다.
Pls help !!!
감사
분산 캐시는 메모리에 없습니다. 계산을 실행하는 모든 호스트에 항아리와 함께 파일을 복사하는 것은 혼란스러운 이름입니다. –
그 점을 지적 해 주셔서 감사합니다. 따라서 노드의 디스크 공간만큼 파일을 추가 할 수 있습니까? –
감속기가 파일을 처리 할 때 전체 파일을 메모리에 보유해야합니까? –