2017-09-08 1 views
1

우리 조직의 평균 활동 웹 사이트는 평균 약 1000 건입니다. HDFS/Hive에 이러한 로그를 스트리밍 할 계획입니다.flume을 사용하여 평균 활성 웹 사이트를 HDFS로 스트리밍합니다. 그것은 효율적입니까?

이제는 작은 파일 작업에 대한 HDFS 효율성에 대한 질문이 있습니다. 얼마나 시간이 지나면 파일 크기가 커지는 지 알 수 있습니다. Hadoop은 대용량 파일을 효율적으로 처리합니다. 여러 개의 작은 파일을 프로덕션 hadoop 시스템에로드하는 것이 좋습니까?

hdfs가 다양한 작은 파일로 어지럽게 섞인 경우 어떤 영향을 미칩니 까?

답변

0

파일에 추가 된 이벤트의 양을 새 파일로 롤아웃하기 전에 재생할 수 있습니다. documentation에 명시된 바와 같이이는 HDFS의 롤링과 같은 매개 변수를 통해 이루어집니다 싱크 : 초

hdfs.rollInterval 30 수는 현재 파일 (0 = 결코 롤 시간 간격 기준)

을 압연하기 전에 대기 할

hdfs.rollSize 1024 파일 크기는 바이트 롤, 트리거 (0 : 파일 크기를 기준으로하지로 롤 않음)가 압연하기 전에 파일에 기록 이벤트

hdfs.rollCount 10 수 (0 = 수를 기준으로하지로 롤 결코 이벤트의)

기본값은 각각 30, 1024 및 10이지만 파일 크기를 늘리거나 파일 크기를 늘려 일부 파일을 비활성화 할 수 있습니다.

관련 문제