내 회사의 POC에 대해 작은 hado 클러스터를 구현 중입니다. Flume을 사용하여 파일을 HDFS로 가져 오려고합니다. 각각의 파일은이 (파일 당 1 "긴"라인) 같은 JSON 객체를 포함스풀링 디렉토리에서 flume을 사용하여 HDFS로 파일 이동
{ "objectType" : [ { JSON Object } , { JSON Object }, ... ] }
"objectType의"는 유형 배열의 객체 (예 : 이벤트, 사용자, ...).
이러한 파일은 나중에 "objectType"에 따라 여러 가지 작업으로 처리됩니다.
spoolDir 소스와 HDFS 싱크를 사용하고 있습니다.
내 질문은 :
이
인가 (그들은 타임 스탬프와 자신의 이름에 UUID가 들어 있으므로 파일 이름이 고유) HDFS에 수로 쓰기 할 때 원본 파일 이름을 유지하는 것이 가능 "높은 값을 설정하는 대신 무제한 값으로"deserializer.maxLineLength "를 설정하는 방법이 있습니까?
정말 느슨한 데이터를 원합니다. 어떤 채널이 가장 좋은 JDBC 또는 File입니까?
내 제약 내가 수로를 사용해야한다는 것입니다 (I 높은 처리량 흐름이없는) 즉시 사용 가능한 (어떤 사용자 지정 요소).
도움 주셔서 감사합니다.