2012-01-12 2 views
8

좋아, 나는 하둡과 mapreduce을 배우려고 시도하고있다. 나는 mapreduce로 시작하고 싶습니다. 그리고 mappers와 reducers 등등의 많은 단순화 된 예제가 있습니다. 그러나 나는 뭔가 빠져있는 것을 보았습니다. 하나의 단어에 얼마나 많은 어커런스가 있는지 보여주는 예제는 이해하기 쉽지만 실제로 "실제"문제를 해결하는 데는 도움이되지 않습니다. 아무도 가짜 현실적인 상황에서 mapreduce를 구현하는 좋은 지침서를 알고 있습니까? 예를 들어, 저는 hadoop과 mapreduce를 Adventureworks와 비슷한 데이터 저장소 위에 사용하고 싶습니다. 이제는 달의 달에 특정 제품에 대한 주문을 받고 싶습니다. 어떻게 그게/mapreduce 관점에서 보이는 것입니까? (이 문제는 mapreduce가 해결하고자하는 문제 유형이 아닐 수도 있지만, 빨리 생각해 냈습니다.)인형을위한 Mapreduce

어떤 방향으로 가는데 도움이됩니다.

답변

13

Hadoop: The Definitive Guide 책을 시작하는 것이 좋습니다. 소개 장은 MapReduce가 어디에 유용하며 언제 사용해야 하는지를 이해하는 데 정말로 유용해야합니다. 고급 챕터에는 단어 수보다 실제적인 예제가 많이 있습니다.

다이빙을 더 깊게하려면 Data-Intensive Text Processing with MapReduce을 확인해보십시오. 이것은 "실제"사용 사례가 많지만 텍스트 처리에 관심이있는 것처럼 들리지는 않습니다. 실현하기 위해 특정 예를 들어


, 주요 사항은 다음과 같습니다

  • 지도 단계는 데이터 변환 및 데이터를 필터링, 분석을 위해 대부분이다. 처리 기록을 위해 레코드 별, 비공유 방식을 생각하십시오. 단어 수에서 이것은 행을 파싱하고 단어를 분리하는 것입니다.
  • 감소 단계는 모두 집계에 관한 것입니다 : 카운팅, 평균화, 최소/최대 등. 단어 수에서 이것은 단어의 인스턴스를 세고 있습니다.

따라서 특정 제품에 대한 모든 레코드를 5 월에 원할 경우 맵 전용 작업을 사용하여 모든 데이터를 필터링하고 원하는 레코드 만 유지할 수 있습니다. 그러나 Hadoop이 유용하다는 것을 실제로 읽어야합니다. Hadoop에 더 적합한 질문은 다음과 같습니다. 매월 모든 항목을 구매 한 횟수를 계산하여 (아마도 매트릭스를 작성하는 것). 아주 드물게 당신이 제안한 것처럼 특정 기록을 찾고 있습니까?

실시간 액세스 플랫폼을 찾고 계시다면 Hadoop에 대해 자세히 알고 나면 HBase을 확인하십시오.

+0

뛰어난! 정말 고맙습니다! – RockyMountainHigh

+4

"단어 수 이외의 다른 예를보고 싶습니다."는 새로운 사람들에게 공통적 인 문제이며 불행히도 가장 좋은 설명은 인쇄되어 있습니다. –

4

하둡은 다양한 문제에 사용할 수 있습니다. 이 블로그 항목을 atbrox에서 확인하십시오. 또한 Hadoop 및 MapReduce에 대한 인터넷에 대한 많은 정보가 있으며 쉽게 분실 될 수 있습니다. 따라서 here은 Hadoop의 통합 된 리소스 목록입니다.

BTW, Hadoop - The Definitive Guide 3rd edition은 5 월에 만기가됩니다. 또한 MRv2 (NextGen MapReduce)을 다루고 있으며 더 많은 사례 연구가 포함되어 있습니다. 제 2 판은 orangeoctopus에 언급 된 것처럼 가치가 있습니다.

+0

깨진 링크 .... – UpTheCreek

+0

updated thankyou –

0

MapReduce는 복잡한 주제 일 수 있으므로 간단한 문제에 대한 접근 방식을 적용하여 이해하기 쉽습니다. 그런 다음 MapReduce가 클러스터의 동일한 문제를 해결하는 방법을 설명합니다. 내 기사를 보시려면 여기를 클릭하십시오 : Intro to Parallel Processing with MapReduce.

이 기사가 MapReduce 및 Hadoop을 더 쉽게 이해할 수 있다고 생각한다면 알려주십시오.