효율성을 위해 (hadoop) 시퀀스 형식으로 변환해야하는 큰 .txt 파일 레코드가 있습니다. 이 온라인 (예 : How to convert .txt file to Hadoop's sequence file format)에 대한 답변을 찾았지만 hadoop을 처음 접했고 실제로 이해하지 못했습니다. 이것들을 좀 더 설명 할 수 있다면, 아니면 다른 해결책이 있다면, 좋을 것입니다. 도움이된다면 레코드는 줄 단위로 구분됩니다.텍스트 파일을 시퀀스 파일로 변환하는 방법?
미리 감사드립니다.
어떻게 키와 값을 토큰화할 수 있습니까? (일반적으로 키는 줄 번호이고 값은 줄 텍스트입니다.) –
당신이 말했듯이. 키 : 줄 번호, 값 : 줄 텍스트. – Jonathan
링크 된 답변에서 특정 부분을 이해하지 못했거나 더 명확히하기를 원했습니까? –