2011-11-18 1 views
3

몇 가지의 정보 페이지와 논문을 보냈습니다.슬롯, 맵 작업, 데이터 분할, 매퍼의 차이점 및 관계

슬롯은 노드에서 map/reduce 계산 단위입니다. 지도 또는 축소 슬롯 일 수 있습니다. 지금까지 분할은 HDFS에있는 파일 블록 그룹으로, 길이와 위치가 노드에 저장되어 있습니다. Mapper는 클래스이지만 코드가 인스턴스화되면 맵 태스크라고합니다. 맞습니까? 맵 작업, 데이터 분할 및 매퍼 간의 차이점과 관계가 명확하지 않습니다.

스케줄링에 대해 노드의지도 슬롯이 비어있을 때지도 작업에 의해 처리 될 데이터가 노드 인 경우 실행되지 않는지도 작업에서 맵 작업이 선택되고 실행된다는 것을 알고 있습니다. 사람은 위의 개념의 관점에서 명확하게 설명 할 수 : 슬롯, 매퍼 및지도 작업 등

감사합니다, 아룬

답변

3

지금까지, 내가 분할을 알고 HDFS의 파일 블록의 그룹입니다 노드의 길이와 위치가 저장되어 있습니다.

InputSplit은 특정 매퍼가 처리 할 데이터의 단위입니다. HDFS 블록 그룹 일 필요는 없습니다. 단일 행, DB에서 100 행, 50MB 파일 등이 될 수 있습니다.

맵 작업, 데이터 분할 및 매퍼 간의 차이점과 관계는 명확하지 않습니다.

InputSplit은 맵 작업으로 처리되고 Mapper의 인스턴스는 맵 작업입니다.

0

내가 알고있는 것처럼 : 거기지도에이 작업 작업 추적기 격차 새 작업하고 작업 을 줄이고 다음 작업 추적기가 각 맵 작업을 할당 할 때 데이터를 HDFS에
첫 번째 데이터 분할 후
노드 이 맵 태스크와 관련된 데이터가 이미 분할되어있어 데이터가 노드에서 로컬이므로 데이터를 이동하는 데 비용이 들지 않으므로 실행 시간은 가능한 한 적습니다.
가끔은 노드에 태스크를 할당해야합니다. 거기에 데이터가 없으므로 노드가 네트워크를 통해 데이터를 가져 와서 처리해야합니다.

0

입력 분할가 데이터가 아닙니다 그것은 프로세스를 매핑지도 데이터의 특정 금액에 대한 참조입니다. 일반적으로 블록 크기와 동일합니다. 왜냐하면 크기가 같지 않고 일부 데이터가 다른 노드에 있으면 해당 데이터를 전송해야하기 때문입니다.

0

MAPPER : 매퍼는 클래스입니다. MAPPER PHASE : 매퍼 단계는 키 및 값 쌍 (키, 값)의 값을 변환하는 입력, 출력 코드입니다. MAPPER SLOT : 맵퍼 및 감속기 코드를 실행합니다.