많은 파일이 여러 하위 디렉토리에 있습니다. 모든 파일은 쉼표로 구분됩니다. 나는 각 파일의 첫 번째 필드에 의해 그룹에 좋아하고 나를여러 파일별로 그룹화
잘못된 필드 투사 오류 코드가 저를주는 총 레코드 수
A = LOAD '/files/*' USING PigStorage(',') as (f1, f2, f3, f4, f5); B = GROUP A ALL; C = GROUP B BY f1; D = FOREACH C GENERATE COUNT(f1) ; DUMP D;
를 실행하는 것입니다. 계획된 필드 [f1]은 schema : group : chararray, A : bag {: 튜플 (f1 : chararray, f2 : bytearray, f3 : bytearray, f4 : bytearray, f5 : bytearray)} 스키마에 없습니다.
감사합니다! 그것은 트릭을했다. – Jimmy