2009-08-03 3 views
0

hadoop을 실행할 때 input 폴더에 n 개의 파일을 각각 1 행씩 넣고 n 행을 1 행씩 입력하는 방법에는 차이가 있습니까?Hadoop Input Files

n 개의 파일이있는 경우 "InputFormat"이 모두 1 개의 연속 파일로 보입니까?

답변

3

큰 차이가 있습니다. 이것은 종종 "작은 파일 문제"라고 불리며, 거대한 입력을 작은 작업으로 분할하려고하지만 작은 입력을 큰 작업으로 수집하지 않기를 기대합니다.

은 클라우 데라에서이 블로그 게시물에서보세요 : 당신이 파일을 많이 만들지 않도록 할 수 있다면, 그렇게 http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

. 가능한 경우 연결하십시오. 큰 분할 가능 파일은 Hadoop에서 훨씬 좋습니다.

한 번은 netflix 데이터 세트에서 Pig를 실행했습니다. 단지 몇 개의 공연을 처리하는 데 몇 시간이 걸렸습니다. 필자는 입력 파일을 연결하여 (영화 당 파일 또는 사용자 당 파일이라고 생각합니다) 단일 파일로 만들었습니다 - 몇 분만에 결과를 얻었습니다.