2012-06-22 5 views
0

효율성을 위해 (hadoop) 시퀀스 형식으로 변환해야하는 큰 .txt 파일 레코드가 있습니다. 이 온라인 (예 : How to convert .txt file to Hadoop's sequence file format)에 대한 답변을 찾았지만 hadoop을 처음 접했고 실제로 이해하지 못했습니다. 이것들을 좀 더 설명 할 수 있다면, 아니면 다른 해결책이 있다면, 좋을 것입니다. 도움이된다면 레코드는 줄 단위로 구분됩니다.텍스트 파일을 시퀀스 파일로 변환하는 방법?

미리 감사드립니다.

+0

어떻게 키와 값을 토큰화할 수 있습니까? (일반적으로 키는 줄 번호이고 값은 줄 텍스트입니다.) –

+0

당신이 말했듯이. 키 : 줄 번호, 값 : 줄 텍스트. – Jonathan

+0

링크 된 답변에서 특정 부분을 이해하지 못했거나 더 명확히하기를 원했습니까? –

답변

1

당신은 hadoop을 처음 사용한다고 했으므로, MapperReducer의 기본 아이디어를 알고 있습니까? 둘 다 KEY_IN_CLASS, VALUE_IN_CLASS, KEY_OUT_CLASS, VALUE_OUT_CLASS, 당신은 간단한 사용 매퍼가 변환을 수행 할 수있는 경우에, 그래서

KEY_IN_CLASS를 들어, 사용하는 데 필요한 기본 LongWritable,

VALUE_IN_CLASS을 사용할 수 있습니다 Text, Text 클래스는 텍스트 입력을 처리하므로

KEY_OUT_CLASS의 경우 NullWritable을 사용할 수 있습니다. 특정 키가없는 경우 null 키입니다.

VALUE_OUT_CLASS의 경우 SequenceFileOutputFormat을 사용하십시오.

SequenceFileOutputFormat을 사용하려면 어떤 키 클래스와 값 클래스를 사용하는지 SequenceFileOutputFormat에 알려야한다고 생각합니다.

관련 문제