2012-08-04 2 views

답변

2

이들 중 일부는 내가 가장 것들 합의를 고수하려고합니다, 주관적 일 수 있습니다

  • 스트리밍 데이터 - 자연에 의해 맵리 듀스 배치입니다. MapReduce에 쓸 때마다 실행되는 무언가가 있습니다. 그러나 실시간으로 들어오는 데이터 스트림을 처리하도록 만들기는 어렵습니다. 스톰 (Storm)과 같이이 문제를 해결할 계획을 가지고있는 프로젝트가 있습니다.
  • 실시간 분석 - MapReduce는 일괄 적이며 일괄 처리 및 대규모 성능을 위해 맞춤형으로 제공되므로 빠른 응답을 얻지 못합니다. 모든 작업에 1-2 분의 오버 헤드가 예상되므로 MapReduce를 사용하면 1 분 이내에 응답 시간을 확보하는 것이 매우 어려워집니다. 이는 Hadoop을 MapReduce가 아닌 패러다임으로서 소프트웨어와 관련이 있습니다.
  • 레코드 가져 오기 - 짧은 시간에 분석을 실행할 수없는 것과 같은 방법으로 개별 레코드 또는 작은 데이터를 가져 오는 것은 MapReduce로하기 쉽지 않습니다. MapReduce는 레코드 전체를 스캔하지 않고 테이블 전체를 스캔하는 것이 좋습니다. HBase가 채우는 틈새입니다.
  • 대규모 재구성 - 좋은 용어는 무엇인지 모르지만 네트워크를 통해 많은 양의 데이터를 섞어야하는 네트워크 인프라의 경우 어려울 수 있습니다. 이는 이러한 문제가 데이터 지역을 완전히 활용하지 않기 때문입니다. 몇 가지 예가 전체 주문 정렬 및 대규모 데이터 세트의 조인입니다.
관련 문제