2013-02-11 2 views
6

여러 데이터 센터에서 데이터 노드의 성능을 테스트하려는 사람이 있습니까? 특히 작은 파이프가있는 네트워크에서. 너무 많은 정보를 찾지 못하고 내가 찾은 정보가 오래된 것 (2010 년경)이거나 독점적 인 것 (DataStax가 뭔가있는 것으로 보입니다)입니다. Hadoop이 랙 인식을 지원한다는 것을 알고 있지만 여러 데이터 센터의 시스템을 튜닝하기위한 문서를 보지 못했다고 말한 것 같습니다.여러 데이터 센터에서 데이터 노드 분산

답변

5

대략 120 마일 떨어진 2 개의 데이터 센터간에 2 : 1 비율의 비율로 배열 된 12 x DataNode 클러스터를 사용해 보았습니다. 데이터 센터 간의 대기 시간은 2 x 1GbE 파이프에서 ~ 4ms입니다.

사이트 A에 2 개의 랙이 구성되었고 사이트 B에 1 개의 랙이 구성되었습니다. 각 "랙"에는 4 개의 기계가 있습니다. 기본적으로 사이트 B를 'DR'사이트로 테스트했습니다. 복제 인수가 3으로 설정되었습니다.

짧은 이야기지만, 작동하지만 성능은 정말 나빴습니다. 쓰기 I/O를 줄이기 위해 소스에서 압축을 사용하고 출력을 매핑 및 축소해야하며 사이트 간의 링크가 다른 용도로 사용되는 경우 데이터를 전송하는 동안 시간 초과가 발생합니다. TCP 윈도우 잉은 효과적으로 1GbE 회선에서 100MBps + 대신 약 4MBps 로의 전송을 제한 할 것입니다.

두통을 피하고 distcp 작업을 사용하여 데이터를 복제하십시오!

관련 문제