2011-02-18 3 views
0

하둡 스트리밍을위한 두 가지 프로그램이 있습니다. 물론매우 큰 크기의 stdout을 사용하는 하둡 스트리밍

mapper (produces <k, v> pair) 
    reducer 

<k, v>쌍는 stdout로 방출된다.

내 질문은 <k, v>에서 v이 매우 큰 경우, 효율적 하둡에서 실행 않습니다

입니까?

매퍼가 내놓은 v은 1G 이상 (때로는 4G 이상)입니다.

답변

1

메모리에서 값을 조작 할 때 문제가 있으므로이 값의 크기가 문제가 될 것이라고 생각합니다. 실제로 그렇게 큰 값이 필요하면 HDFS에 넣고 V를 파일의 이름으로 만들 수 있습니다. 이 경우 고려해야 할 문제점은이 접근 방식이 더 이상 작동하지 않는다는 사실입니다. 예를 들어 실패한 매퍼와 같은 부작용이 있습니다.

0

"물론 쌍은 표준 출력으로 방출됩니까?"라는 의미는 무엇입니까?

키 값 쌍의 수가 매우 많다는 것을 의미합니까? 그렇다면, hadoop은 이것을 효율적으로 처리합니다.

만약 v의 크기가 매우 넓다는 뜻이라면. 따라서 주어진 키에 대해 방출되는 값은 1 - 4GB 또는 그 이상입니다. 무엇보다도 큰 값을 생성하기 위해 어떤 종류의 응용 프로그램을 실행하고 있습니까? 열쇠를 깨뜨릴 수 있습니까?

주요 점으로 돌아 가기 : 하둡은별로 효율적이지 못합니다. 유스 케이스에 달려있다. 대부분의 경우 매우 비효율적입니다.