"The Hadoop에 대한 확실한 안내서"에 따르면 입력 형식 TextInputFormat
은 (k, v) = (byte offset, line)
키 값 쌍을 제공합니다. 그러나 MRJob에서 매퍼 입력의 키는 항상 None
입니다. 바이트 오프셋을 키로 가져 오는 것은 쉽습니다. 그 이유는 이것이 TextInputFormat이하는 일이기 때문입니다. 어떻게해야합니까?MRJob으로 바이트 오프셋 가져 오기
환경 변수 'map_input_start'를 사용하여 직접 바이트 오프셋을 계산할 수 있다는 것을 알고 있지만 문제가 발생했으며이를 오프셋으로 키로 가져 오는 것이 훨씬 간단합니다.
MRJob은 Hadoop 스트리밍을 사용하는 Python 라이브러리입니다. Java 코드를 망치지 않기를 바랬습니다. –