나는 hadoop과 그 어플리케이션에 대해 좀 더 배우고 있는데, 거대한 데이터 세트와 큰 파일을 대상으로한다는 것을 이해한다. 예를 들어 hadoop/hdfs와 같은 것의 큰 번호가 아닌 비교적 적은 수의 파일 (100k)을 처리하는 응용 프로그램이 있다고 가정 해 봅시다. 그러나 단일 시스템에서 실행하는 데 많은 시간이 걸리기 때문에이 프로세스를 배포하고 싶습니다.더 작은 규모의 자바 분산 프로그래밍
문제는지도 축소 스타일 문제 (예 : 각 파일을 독립적으로 처리 한 다음 결과를 집계 할 수 있음)로 분류 할 수 있습니다. Amazon EC2와 같은 인프라를 사용할 수는 있지만 실제로 프로세스 결과를 수집하기 위해 어떤 기술을 탐색해야하는지 확신 할 수 없습니다. hadoop과 같게 여기 조금 과잉일지도 모른다.
누구든지 이러한 유형의 문제에 대한 지침을 제공 할 수 있습니까?
잘 모르겠습니다. 하둡의 감축 단계는 계산 결과를 정확히 집계하는 것을 의미합니다. – Tudor
맞아,하지만 hdfs를 사용하지 않는데, 작은 파일이 많을 때 파일 크기가 약간 커야한다. (그리고 나는 그 파일들을 집계하는 기술이있다. 내 경우에는 파일이 다르다. 이미지와 같은 파일). hdfs가 적절하지 않다면 항상 s3과 같은 것을 사용할 수 있습니까? –
네가 맞다. HDFS는 많은 양의 작은 파일을위한 것이 아니며 성능이 매우 떨어지며, 대학의 "클러스터"를 사용하여 내 자신의 실험에서 이것을 말할 수있다. 다행히도 내 파일은 텍스트 파일이므로 하나의 큰 파일로 병합 할 수 있었고 성능이 60 배 향상되었습니다.:) – Tudor