2013-03-04 3 views
2

안녕하세요, hadoop 환경을 설정하려고합니다. 간단히 말해서 내가 해결하려고하는 문제는 크기가 몇 MB 인 수십억 개의 XML 파일을 포함하고 HIVE를 사용하여 관련 정보를 추출하고 정보로 일부 분석 작업을 수행합니다. 나는 이것이 hadoop 세계에서 사소한 문제라는 것을 알고 있지만, Hadoop 솔루션이 크기와 파일 수보다 잘 작동한다면 기하학적 진행 형태가 증가 할 것입니다.Hadoop 클러스터 요구 사항 소프트웨어/하드웨어

나는 "Hadoop - 명확한 가이드", "Hadoop in action"과 같은 다양한 서적을 참고하여 연구했습니다. yahoo 및 hortonworks의 문서와 같은 리소스 hadoop 환경을 구축하기위한 하드웨어/소프트웨어 사양을 파악할 수 없습니다. 지금까지 언급 한 자원에서 나는 가지

  1. 네임 노드/JobTracker에 (2 ×의 1Gb/s의 이더넷, 16GB의 RAM, 4xCPU 100 GB 디스크)
  2. 데이터 노드 (같은 표준 솔루션을 발견했다 2 개의 1Gb/s의 이더넷, 총 금액 500 GB의
    )

와 RAM, 4xCPU, 여러 디스크 8 기가 바이트하지만 사람이 좋을 몇 가지 제안을 할 수 있습니다. 감사합니다

+0

왜 Amazon의 EMR에 참여하지 않습니까? – Amar

+0

@Amar : 내 하드웨어가 있어야하는데 그게 아무것도 들지 않을 것입니다. 또한이 솔루션을 기반으로 장기적인 솔루션을 찾으려고 노력하고 있으므로이 방법으로 만해야합니다. – user1188611

답변

1

먼저 당신이 고려해야 할 제안 : 당신은 더 많은 프로세싱 + 일부 스토리지 또는 반대, 그리고이보기 하드웨어를 선택합니다. 케이스가 처리 후 저장 공간이 더 많이 들립니다.
hadoop에 대해 표준 하드웨어를 조금 다르게 지정할 수 있습니다.
NameNode : 미러의 고품질 디스크, 16GB HDD.
데이터 노드 : 16-24GB RAM, 듀얼 쿼드 또는 듀얼 6 코어 CPU, 4 ~ 6 1-2-3 SATA TB 드라이브.

또한 10GBit 옵션도 고려할 것입니다. 나는 클러스터 가격의 15 % 이상을 추가하지 않으면 그것이 합리적이라고 생각합니다. 15 %는 매퍼에서 감속기로 데이터를 전송할 때 작업 시간의 약 15 %를 차지한다는 대략적인 추정에서 왔습니다.
귀하의 경우에는 돈을 절약하기 위해 디스크 크기를 희생 하겠지만 CPU/메모리/드라이브 수는 기꺼이 희생 할 것입니다.

+0

정보를 제공해 주셔서 감사합니다. 마치 지금처럼 가격이 문제가되지 않습니다. 내가 신경 쓰는 건 바로 하드웨어/소프트웨어 사양을 얻고 그 일을 끝내는 것입니다. 네가 맞아 내가 저장보다 처리 할거야. – user1188611

+0

더 많은 처리가 필요하다면 Amazon EC2 또는 EMR 프로파일 링을 저장하는 것이 매우 중요 할 수 있습니다. –

+0

내 하드웨어/소프트웨어가 있어야합니다. 그게 내가 여기 사람들로부터 제안을 요청한 유일한 이유입니다. Amazon EMR 및 EC2에 대해 알고 있습니다. – user1188611

0

"HIVE를 사용하여 관련 정보를 추출하십시오." 하이브는 xml 파일과 관련이 없기 때문에 약간 까다로울 것입니다. xml 파일을 구문 분석하고 하이브에로드 할 열 출력을 생성 할 수있는 다른 언어 (루비, 파이썬, 펄 등)로 구문 분석 스크립트를 작성하려고합니다. 그런 다음 하이브를 사용하여 변환을 사용하여 외부 구문 분석 스크립트를 호출하거나 하이브에 대한 데이터 준비를 위해 단지 하프 스트리밍을 사용할 수 있습니다. 그러면 얼마나 빨리 작업을 수행해야하는지, 얼마나 많은 공간을 확보하여 데이터 양을 유지해야하는지에 관한 문제입니다.

단일 시스템에서 소수의 파일로 프로세스를 테스트하여 테스트 할 수 있습니다. 그러나 클러스터를 적절히 확장하려면 계획 한 전체 작업 부하를보다 효과적으로 처리해야합니다. 최소한의 프로덕션 클러스터 크기는 데이터 중복성을 위해 최소 3 ~ 4 대의 컴퓨터가됩니다. 그 외에도 필요에 따라 노드를 추가하여 작업량 요구 사항을 충족시킵니다.