2012-08-13 5 views
0

스토리지 시스템으로 A hadoop에 대해 2 가지 질문이 있습니다.Hadoop 데이터 분할 및 데이터 흐름 제어

  1. 나는 3 데이터 노드의 하둡 클러스터가 나는 큰 파일의 분할을 지시 할 데이터 노드의 내 선택에 (64메가바이트은 그 분할 크기를 가정) 크기 128메가바이트의 말한다. 그런 경우 어떤 분할이 어떤 DataNode로가는지를 제어하는 ​​방법입니다. 나는 우리가 3 개의 데이터 노드 (즉, D1, D2, D3)를 가지고 있다고 말할 수 있고 특정 분할 노드 (A라고 말하게한다)를 원한다면 특정 데이터 노드로 이동하여 D2가되도록 할 수있다.

    어떻게 할 수 있습니까?

  2. 가능한 한 가장 작은 분할 크기의 hadoop 파일 시스템입니다. 가장 작은 분할 크기로 어떻게 구성 할 수 있습니까?

답변

1

1) 당신은 데이터 블록이 원하는만큼 작은

2) (아마하지만 1024 바이트의 배수 여야 배치되는 위치를 제어 할 수는 없지만 내가 있다고 생각하지 않습니다 실제 하드웨어에서는 64/128 MB보다 작은 것이 비효율적입니다. MR 작업에서 CPU 집약적 인 작업을 수행하는 경우 처리 분할 크기를 더 작게 지정할 수 있습니다.

+0

감사합니다. 내 질문은 소스를 변경하거나 응용 프로그램을 작성하거나 우선 순위를 설정하여 새로운 incomming 데이터를 perticular 데이터 노드로 보내는 것입니다. –

+0

블록 흐름을 제어하기 위해 소스에서 일부 변경을 수행 할 수 있습니까? 적어도 우리는 md5 체크섬을 기반으로 블록을 배포 할 수 있습니다. 즉, 1 ~ 100의 md5 합계를 가진 블록은 NodeA로 이동하고 100-200은 NodeB로 이동하고 200-300은 NodeC로 이동합니다. –