사용자 지정 csv 파일을 입력으로 처리하고 csv 파일을 HDFS에 다시 써야합니다. 실제가 장소를 차지하는지도 축소 수업 내에서 직접이 작업을 수행 할 수 있습니까?hadoop 응용 프로그램에서 CSV 파일 읽기 및 쓰기
내 CSV 파일을 처리하기 위해 opencsv 라이브러리를 사용하고 있습니다. 필자는 inputformat 및 outputformat 플래그를 사용하여 사용자 정의 형식을 처리하는 Java 클래스를 지정하는 자습서를 보았습니다. 누군가 CSV 파일 작업 방법에 대한 조언을 제공해 주시겠습니까?
hadoop이 제공해야하는 것에 충실하고 싶습니다. 그렇지 않으면 입력 및 출력 형식을 직접 구현하면 처리 속도가 느려질 수 있습니다.
참조하는 자습서에 연결할 수 있습니까? –
http://blog.aggregateknowledge.com/2011/08/30/custom-inputoutput-formats-in-hadoop-streaming/ 나는 내가 언급 한 정확한 것을 찾지 못했고, 내 캐시를 삭제했다고 말해야합니다. 브라우저는 정확한 블로그를 다시 찾을 수 없습니다. 그러나 이것과 비슷한 것은 – Bob