안녕하세요, hadoop 환경을 설정하려고합니다. 간단히 말해서 내가 해결하려고하는 문제는 크기가 몇 MB 인 수십억 개의 XML 파일을 포함하고 HIVE를 사용하여 관련 정보를 추출하고 정보로 일부 분석 작업을 수행합니다. 나는 이것이 hadoop 세계에서 사소한 문제라는 것을 알고 있지만, Hadoop 솔루션이 크기와 파일 수보다 잘 작동한다면 기하학적 진행 형태가 증가 할 것입니다.Hadoop 클러스터 요구 사항 소프트웨어/하드웨어
나는 "Hadoop - 명확한 가이드", "Hadoop in action"과 같은 다양한 서적을 참고하여 연구했습니다. yahoo 및 hortonworks의 문서와 같은 리소스 hadoop 환경을 구축하기위한 하드웨어/소프트웨어 사양을 파악할 수 없습니다. 지금까지 언급 한 자원에서 나는 가지
- 네임 노드/JobTracker에 (2 ×의 1Gb/s의 이더넷, 16GB의 RAM, 4xCPU 100 GB 디스크)
- 데이터 노드 (같은 표준 솔루션을 발견했다 2 개의 1Gb/s의 이더넷, 총 금액 500 GB의
)
와 RAM, 4xCPU, 여러 디스크 8 기가 바이트하지만 사람이 좋을 몇 가지 제안을 할 수 있습니다. 감사합니다
왜 Amazon의 EMR에 참여하지 않습니까? – Amar
@Amar : 내 하드웨어가 있어야하는데 그게 아무것도 들지 않을 것입니다. 또한이 솔루션을 기반으로 장기적인 솔루션을 찾으려고 노력하고 있으므로이 방법으로 만해야합니다. – user1188611