현재 돼지 스크립트를 디버깅 중입니다. 기본 ("Load"기능 대신) Pig 파일에 튜플을 직접 정의하고 싶습니다.돼지 스크립트에서 튜플 데이터 정의하기
할 방법이 있습니까?
내가 그런 일을 찾고 :
A= ('name#bob'','age#29';'name#paul','age#12')
덤프가 반환합니다 : 그것은 현재의 약자로
('bob',29)
('paul',12)
현재 돼지 스크립트를 디버깅 중입니다. 기본 ("Load"기능 대신) Pig 파일에 튜플을 직접 정의하고 싶습니다.돼지 스크립트에서 튜플 데이터 정의하기
할 방법이 있습니까?
내가 그런 일을 찾고 :
A= ('name#bob'','age#29';'name#paul','age#12')
덤프가 반환합니다 : 그것은 현재의 약자로
('bob',29)
('paul',12)
그것은 사실 impossibble는 돼지에서이 작업을 수행하는 것입니다. 만약 당신이 단지 hadoop에서 파일을 만들고 디버깅을하고 싶다면. 원하는 데이터를 파일에 쓰고 (수동으로 작성한 것이 무엇이든지간에) 파일을 업로드하십시오. 그런 다음 돼지를 사용하여로드하십시오.
다음과 같은 (더러운) 속임수가 적용됩니다. - 빈 행 하나를 사용하여 파일을 HDFS에 저장합니다. - 로딩 : Line = load/user/toto/onelinefile USING .. - 자체 데이터 생성 : foreach line은 'bob'을 이름으로 생성하고, 22는 age로 생성합니다.
일부 데이터를로드 한 경우 TOTUPLE을 사용하여 튜플을 만들 수 있습니다. http://pig.apache.org/docs/r0.10.0/func.html#totuple –
LOAD를 사용하지 않고 튜플을 정의하려고합니다. 기능. –
돼지 스크립트에서'% declare'를 사용하여 매개 변수를 정의 할 수는 있지만, 단지 데이터를 즉시 만들 수는 없다고 생각합니다. (hdfs/로컬 디스크에서로드하지 않고) –