텍스트 파일을 시퀀스 파일로 변환하는 방법?

효율성을 위해 (hadoop) 시퀀스 형식으로 변환해야하는 큰 .txt 파일 레코드가 있습니다. 이 온라인 (예 : How to convert .txt file to Hadoop's sequence file format)에 대한 답변을 찾았지만 hadoop을 처음 접했고 실제로 이해하지 못했습니다. 이것들을 좀 더 설명 할 수 있다면, 아니면 다른 해결책이 있다면, 좋을 것입니다. 도움이된다면 레코드는 줄 단위로 구분됩니다.텍스트 파일을 시퀀스 파일로 변환하는 방법?

미리 감사드립니다.

출처

2012-06-22 Jonathan

어떻게 키와 값을 토큰화할 수 있습니까? (일반적으로 키는 줄 번호이고 값은 줄 텍스트입니다.) –

당신이 말했듯이. 키 : 줄 번호, 값 : 줄 텍스트. – Jonathan

링크 된 답변에서 특정 부분을 이해하지 못했거나 더 명확히하기를 원했습니까? –

당신은 hadoop을 처음 사용한다고 했으므로, Mapper과 Reducer의 기본 아이디어를 알고 있습니까? 둘 다 KEY_IN_CLASS, VALUE_IN_CLASS, KEY_OUT_CLASS, VALUE_OUT_CLASS, 당신은 간단한 사용 매퍼가 변환을 수행 할 수있는 경우에, 그래서

KEY_IN_CLASS를 들어, 사용하는 데 필요한 기본 LongWritable,

VALUE_IN_CLASS을 사용할 수 있습니다 Text, Text 클래스는 텍스트 입력을 처리하므로

KEY_OUT_CLASS의 경우 NullWritable을 사용할 수 있습니다. 특정 키가없는 경우 null 키입니다.

VALUE_OUT_CLASS의 경우 SequenceFileOutputFormat을 사용하십시오.

SequenceFileOutputFormat을 사용하려면 어떤 키 클래스와 값 클래스를 사용하는지 SequenceFileOutputFormat에 알려야한다고 생각합니다.

출처

2012-06-22 14:50:08 Chun

텍스트 파일을 시퀀스 파일로 변환하는 방법?

답변

관련 문제