특정 hadoop 작업의 입력 레코드를 보는 방법은 무엇입니까?

나는 hadoop 작업을 실행 중입니다. 모두 있지만 4 개의 작업이 완료됩니다. 나는 그 청크를 처리하는 것이 왜 그렇게 오래 걸리는지 숙고하고 있습니다. 내 생각에 그 입력 레코드는 내 작업으로 처리하기가 어렵습니다. 로컬로 테스트하려면 해당 입력 레코드를 검색하고 싶습니다. 내가 어떻게하는거야?특정 hadoop 작업의 입력 레코드를 보는 방법은 무엇입니까?

는

작업의 상태 열은 HDFS를 말한다 : //10.4.94.75 : 8020/사용자/결과 someuser/myfilename : 154260 + 3

그러나 그것은 무엇을 의미합니까?

출처

2012-08-16 Dima

상태의 마지막 부분은 분할에 대한 정보를 제공합니다. 더 구체적으로 :

hdfs://10.4.94.75:8020/user/someuser/myfilename:154260+3

이 상태를 갖는 작업이 "myfilename"의 분할 처리 있음을 알려줍니다 바이트에서 시작은, 정보의이 조각을 감안할 때 "myfilename"와 가진 길이 3

에 154,260 오프셋 파일에서 바이트 154260을 건너 뛰고 3 바이트를 읽음으로써이 작업에 할당 된 레코드를 검색 할 수 있습니다.

출처

2012-08-16 15:21:47 Razvan

흠 ...하지만 파일은 일반 텍스트이지만 줄 번호 =와 같았습니다. – Dima

특정 hadoop 작업의 입력 레코드를 보는 방법은 무엇입니까?

답변

관련 문제