PIG UDF에서 정적 파일을 읽는 방법

PIG 및 Hadoop을 처음 사용합니다. String에서 작동하고 문자열을 반환하는 PIG UDF를 작성했습니다. 실제로 udf에 비즈니스 로직을 포함하고있는 기존의 jar 클래스를 사용합니다. 클래스 생성자는 2 개의 파일 이름을 입력으로 사용하여 입력 처리에 사용되는 사전을 작성합니다. mapreduce 모드에서 작동시키는 법 돼지 로컬 모드에서 파일 이름을 전달하려고 시도했지만 정상적으로 작동합니다. 하지만 mapreduce 모드에서 작동시키는 법을 모릅니다. 분산 캐시가 문제를 해결할 수 있습니까?PIG UDF에서 정적 파일을 읽는 방법

는 여기에 내가 tokenParser.jar이 BufferedInputReader의 일종을 사용하고 있어야 이해 무엇에서 내 코드

REGISTER tokenParser.jar 

REGISTER sampleudf.jar; 


DEFINE TOKENPARSER com.yahoo.sample.ParseToken('conf/input1.txt','conf/input2.xml'); 

A = LOAD './inputHOP.txt' USING PigStorage() AS (tok:chararray); 
B = FOREACH A GENERATE TOKENPARSER(tok); 
STORE B into 'newTokout' USING PigStorage();

입니다. 토큰 매개 변수를 변경하지 않고도 작업을 수행 할 수 있습니까?

출처

2011-02-24 Tom Praison

예,이 similar question을 사용하는 경우 distributed cache을 사용하는 것이이 문제를 해결하는 좋은 방법입니다.

출처

2011-02-25 21:04:09 Romain

PIG UDF에서 정적 파일을 읽는 방법

답변

관련 문제