2013-07-19 2 views
1

다른 Pig 스크립트에서 생성 된 출력 부분 파일을 분할하고 각각 1000 개의 행을 포함하는 그룹을 생성해야합니다. 이 그룹은 추가 처리를 위해 웹 서비스에 게시됩니다. 데이터 간에는 관계가 없으므로 특정 필드에 데이터를 그룹화 할 수 없습니다.돼지 : 대용량 파일을 여러 개의 작은 파일로 나누기

돼지에서 어떻게 할 수 있습니까?

답변

4

스플릿이 데이터와 관련이없는 경우 돼지 또는 MapReduce를 사용하는 이유는 무엇입니까? 대안으로, 오해하지 않았다면 표준 분할 프로그램을 사용하여 데이터를 분할 할 수 있습니다. 예 :

cat part-* | split -d -l 1000 - result- 
관련 문제