엄청난 양의 데이터를 로그 분석하고 분석 정보를 수집하려고합니다. 그러나 모든 데이터는 외부 소스에서 제공되며 백업/복제로 저장할 머신은 2 대 밖에 없습니다.Hadoop : 단지 2 대의 기계를 사용하는 단점이 있습니까?
나는 이것을 달성하기 위해 Hadoop, Lucene을 사용하려고합니다. 그러나 모든 교육 문서에는 Hadoop이 분산 처리, 다중 노드에 유용하다는 언급이 있습니다. 설치가 해당 아키텍처에 맞지 않습니다.
두 대의 기계로 Hadoop을 사용하는 오버 헤드가 있습니까? Hadoop이 좋은 선택이 아니라면 대안이 있습니까? 우리는 Splunk를 보았습니다, 우리는 그것을 좋아하지만, 그것은 우리가 사는데 비쌉니다. 우리는 단지 우리 자신 만의 것을 만들고 싶습니다.
감사합니다. 향후 몇 년 동안 우리는 5 테라 바이트를 초과하지 않을 수도 있습니다. 나는 할 수있는 일이있다. 우리의 생각은 map-reduce를 사용하여 사용자 로그인 데이터, 서버 실패율 등과 같은 분석적인 질문에 대답하는 것이다. 로그에서 수집 된 일반적인 정보. 내가 hadoop을 사용하여 분산 로그 파싱의 Rackspace 구현을 읽었으므로 이것을 시험 해보려고합니다. – neblinc1
따라서 5 테라 바이트가 있고 복제 계수 2를 사용하는 경우 MapReduce 작업의 출력을 위해 각 시스템에 5TB가 있고 데이터가 몇 TB 더 있어야합니다. 나는 Hadoop : The Definitive Guide, Tom White의 책을 살펴볼 것입니다. 그것의 좋은 자원. –