2010-02-11 2 views
2

엄청난 양의 데이터를 로그 분석하고 분석 정보를 수집하려고합니다. 그러나 모든 데이터는 외부 소스에서 제공되며 백업/복제로 저장할 머신은 2 대 밖에 없습니다.Hadoop : 단지 2 대의 기계를 사용하는 단점이 있습니까?

나는 이것을 달성하기 위해 Hadoop, Lucene을 사용하려고합니다. 그러나 모든 교육 문서에는 Hadoop이 분산 처리, 다중 노드에 유용하다는 언급이 있습니다. 설치가 해당 아키텍처에 맞지 않습니다.

두 대의 기계로 Hadoop을 사용하는 오버 헤드가 있습니까? Hadoop이 좋은 선택이 아니라면 대안이 있습니까? 우리는 Splunk를 보았습니다, 우리는 그것을 좋아하지만, 그것은 우리가 사는데 비쌉니다. 우리는 단지 우리 자신 만의 것을 만들고 싶습니다.

답변

0

분산 배치 처리 문제에 Hadoop을 사용해야합니다. 분석 로그 파일의

5-common-questions-about-hadoop

는 하둡, 페이스 북은 그것을 사용하는 작업의 하나의 일반적인 용도 중 하나입니다.

두 대의 컴퓨터가있는 경우 정의에 따라 다중 노드 클러스터가 있습니다. 원하는 경우 단일 시스템에서 Hadoop을 사용할 수 있지만 더 많은 노드를 추가 할 때 동일한 양의 데이터를 처리하는 데 걸리는 시간이 줄어 듭니다.

엄청난 양의 데이터가 있다고합니까? 이들은 이해해야 할 중요한 숫자입니다. 개인적으로 데이터 측면에서 엄청난 규모라고 생각할 때 나는 100 테라 바이트 + 범위라고 생각합니다. 이 경우, 특히 HDFS를 통해 복제를 사용하려는 경우에는 두 대 이상의 시스템이 필요할 것입니다.

수집 할 분석 정보는 무엇입니까? MapReduce 방식을 사용하여 이러한 질문에 답변 할 수 있다고 판단 했습니까?

제한된 하드웨어 리소스가있는 경우 Amazons EC2에서 Hadoop을 사용하는 것이 좋습니다. 여기에 당신이 시작하는 몇 가지 링크는 다음과 같습니다

+0

감사합니다. 향후 몇 년 동안 우리는 5 테라 바이트를 초과하지 않을 수도 있습니다. 나는 할 수있는 일이있다. 우리의 생각은 map-reduce를 사용하여 사용자 로그인 데이터, 서버 실패율 등과 같은 분석적인 질문에 대답하는 것이다. 로그에서 수집 된 일반적인 정보. 내가 hadoop을 사용하여 분산 로그 파싱의 Rackspace 구현을 읽었으므로 이것을 시험 해보려고합니다. – neblinc1

+0

따라서 5 테라 바이트가 있고 복제 계수 2를 사용하는 경우 MapReduce 작업의 출력을 위해 각 시스템에 5TB가 있고 데이터가 몇 TB 더 있어야합니다. 나는 Hadoop : The Definitive Guide, Tom White의 책을 살펴볼 것입니다. 그것의 좋은 자원. –

관련 문제