2012-04-24 6 views
0

MR과 Hadoop 앞에서 초보자입니다. CSV 파일에서 실종 신고를 위해 MR을 썼는데 정상적으로 작동합니다. 이제는 usecase를 사용하여 CSV 파일을 구문 분석하고 관련 카테고리로 코드화해야합니다.입력 파일의 텍스트를 hadoop으로 바꿉니다. MR

예 : "11, ABC, XYZ, 51,61,78", "11, ADC, ryz, 41,71,38".............

이제 "1, abc, xyz, 5,6,7", "1, adc, ryz, 4,7,3", .............

으로 바꿔야합니다.

여기에 10의 모드를하고 있지만 다른 모드의 경우가 있습니다. 데이터 크기는 기가 바이트 단위입니다.

입력 내용을 대신하여 내용을 바꾸는 방법을 알고 싶습니다. MR과 함께 달성 할 수 있습니까?

기본적으로 hadoop 예제를 기반으로 파일을 처리하거나 작성하는 것을 보지 못했습니다.

이 시점에서 나는 HBase 또는 다른 db 도구에 가고 싶지 않습니다.

답변

1

HDFS 파일은 추가 전용이므로 편집 할 수 없기 때문에 데이터를 대체 할 수 없습니다.
당신의 목표를 달성하는 가장 간단한 방법은 Hive에 외부 테이블로 데이터를 등록하고 HQL에 trnasformation을 작성하는 것입니다.
하이브는 hadoop 옆에 앉아서 MR 작업으로 쿼리를 번역하는 시스템입니다. HBASE 사용법에 따라 인프라 사용 여부가 심각하지 않습니다.

+0

이 작업을 수행하고 결과를 제공합니다. – kmkswamy

관련 문제