Python 코드를 사용하여 Hadoop의 전체 파일을 처리합니다 (보통 Dumbo에서)

매우 일반적인 사용 사례이지만 Hadoop에서 수행하기가 어렵습니다 (WholeFileRecordReader 클래스에서 가능). Dumbo 나 Pig에서 가능한가요? 누구나 Dumbo 나 Pig를 사용하여 전체 파일을지도 작업으로 처리하는 방법을 알고 있습니까?Python 코드를 사용하여 Hadoop의 전체 파일을 처리합니다 (보통 Dumbo에서)

출처

2011-08-30 jan

답변 해 주셔서 감사합니다. Hadoop에서 파일 분할에 대해 읽었을 때 표준 분할 크기는 64MB입니다. 내 파일은 작고 (수백 KB) HAR에 압축되어 있습니다. 지도가 분할되지 않고 실제로지도 작업 당 하나씩 처리된다는 의미입니까? 또는지도 작업 당 여러 개 (HAR 때문에)? – jan

아니요, har가지도의 수를 줄이지는 않습니다. MultiFileInputSplit을 사용해야합니다. Pig를 사용하는 경우 Pig는 0.8 (http://pig.apache.org/docs/r0.9.0/perf.html#combine-files)부터 시작하는 작은 파일을 자동으로 결합합니다. –

WholeFileRecordReader는 입력 파일을 분할하지 않는다는 것을 의미합니까? 그렇다면 mapred.min.split.size를 매우 큰 값으로 정의하십시오. mapreduce와 Pig가 모두 사용합니다.

출처

2011-08-30 17:47:30

감사합니다. 그것은 매우 간단하지만 어떤 노드에서 설정해야합니까? (원격 Hadoop 클러스터를 사용하고 있습니까?) – jan

나는 당신이 돼지에 기록으로 하나의 파일을 갖고 싶어한다고 가정하고 있습니다. 그렇지 않은 경우 귀하의 질문에 구체적으로 기재하십시오.

전체 파일을 한 번에 (표준 배포 또는 piggybank에서)로드하는 Pig 저장소 로더에 대해 잘 모릅니다. 나는 당신이 자신의 Pig custom loader을 쓰기를 제안한다. 그것은 비교적 쉽다.

출처

2011-08-31 02:04:36

Python 코드를 사용하여 Hadoop의 전체 파일을 처리합니다 (보통 Dumbo에서)

답변

관련 문제