Hadoop에서 많은 파일을 처리하고 싶습니다. 각 파일에는 몇 가지 헤더 정보가 있으며 그 뒤에 많은 양의 레코드가 있으며 각각은 고정 된 바이트 수로 저장됩니다. 그것에 관한 어떤 제안?Hadoop에 헤더가 포함 된 파일 처리
3
A
답변
4
가장 좋은 해결책은 사용자 정의 InputFormat
을 작성하는 것입니다.
0
사용자 지정 FileInputFormat을 작성하는 것 외에도 파일 내에서 레코드를 처리하는 방법을 독자가 알 수 있도록 파일을 분할 할 수 없는지 확인해야합니다.
1
한 가지 해결책이 있습니다. 매퍼가 읽는 파일의 라인 오프셋을 확인할 수 있습니다. 파일의 첫 번째 줄은 0입니다.
는공공 무효지도 (LongWritable 키, 텍스트 값, 컨텍스트 컨텍스트) IOException이, 예외 : InterruptedException 을 던졌습니다 {
if(key.get() > 0)
{
your mapper code
}
}
그래서, 그것은의 첫 번째 줄을 건너 뛰고 다음과 같이 그래서 당신은지도에 선을 추가 할 수 있습니다 파일.
그러나이 방법으로 파일의 각 줄마다이 조건이 검사되기 때문에 좋지 않습니다.
가장 좋은 방법은 사용자 지정 입력 형식을 사용하는 것입니다.
관련 문제
- 1. 헤더가 포함 된 규칙은 무엇입니까?
- 2. hadoop에 거대한 파일 : 메타 데이터를 저장하는 방법?
- 3. 클라이언트에서 내용 처리 헤더가 누락되었습니다.
- 4. 외부 헤더가 C++에 포함
- 5. PHP가 포함 된 파일
- 6. 배치 파일에서 SetDelayedExpansion 사용 : 포함 된 dirs/파일 이름 처리!
- 7. 이름에 공백이 포함 된 폴더에 C#이있는 파일 처리
- 8. 헤더가 포함 된 innerhtml 대신 사용할 수 있습니까?
- 9. 템플릿이 포함 된 자바 스크립트 파일 포함
- 10. 많은 XML 파일 처리 (TagSoup 포함)
- 11. php 클래스에 포함 된 파일
- 12. 슬래시가 포함 된 파일 참조
- 13. 포함 된 버전이있는 파일 형식
- 14. 파일 헤더가 csv.gz 인 경우
- 15. 포함 된 vbCRLF가 포함 된 배치 파일에서 텍스트 파일 쓰기
- 16. 구문 분석 된 로그 데이터를 hadoop에 저장하고 관계형 데이터베이스로 내보내기
- 17. 이미지 데이터가 포함 된 XML 파일 또는 XML + 별도 이미지 파일이 포함 된 ZIP 파일
- 18. 지연된 작업이 포함 된 CSV 파일 업로드
- 19. 해석자 : 처리 포함/가져 오기
- 20. gcc 3.3.3에서 프리 컴파일 된 헤더가 지원됩니까?
- 21. 큰 xml 파일 처리
- 22. 슬래시가 포함 된 #include 문 (두 부분으로 구성된 헤더 파일)
- 23. Xcode에서 사전 처리 된 파일 생성
- 24. PHP에 오류 포함 파일 포함
- 25. XSLT 1.0이 포함 된 일반 텍스트 파일 포함
- 26. PHP 테스트 출력 만 포함 된 파일 포함
- 27. .htaccess 파일이 포함 된 파일 (이미지 포함)에 영향을 미침
- 28. 라우팅 된 URL의 자바 스크립트 파일 포함
- 29. bash에서 포함 된 소스로 grepped 파일 사용
- 30. Jar 파일에 포함 된 클래스 파일 읽기