나는 수로를 사용하여 HDFS에 트위터 데이터를 스트리밍하기 위해 노력하고있어이 롤링 유지 여기서 나는 큰 파일 (64Mb)을보고 싶다.수로 HDFS 싱크는 작은 파일
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sources.Twitter.consumerKey = xxxxxx
TwitterAgent.sources.Twitter.consumerSecret = xxxxxx
TwitterAgent.sources.Twitter.accessToken = xxxxx
TwitterAgent.sources.Twitter.accessTokenSecret = xxxxxxxx
TwitterAgent.sources.Twitter.keywords = test
TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost.localdomain:8020/user/flume/tweets/%Y/%m/%d/%H/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 10000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 67108864
TwitterAgent.sinks.HDFS.hdfs.rollCount = 0
TwitterAgent.sinks.HDFS.hdfs.rollInterval = 0
TwitterAgent.sinks.HDFS.hdfs.idleTimeout = 0
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 1000
편집 : 여기 에이전트 구성입니다 내가 로그 파일에 보니이 일이 모든 시간을 발견
9 : 11 : 27.526 오전 WARN을 org.apache.flume.sink .hdfs.BucketWriter Block 과소 복제가 감지되었습니다. 파일 회전. 9 : 11 : 37.036 AM ERROR org.apache.flume.sink.hdfs.BucketWriter
최대 연속 복제 불량 회전 수 (30); will not under-replication 때문에이 경로에서 파일 롤링 계속하기
동일한 오류가 발생합니다. 어떻게 복구 했습니까? 어떻게 복제 계수를 1로 설정 했습니까? – Burhan
Cloudera Manager에서 설정할 수 있습니다. 정확히 어디서 .. .. 기억이 안나 .. – JochenDB
/etc/hadoop/conf/hdfs-site.xml 경로에 있었고 속성 이름이 dfs.replication이면 1로 설정했습니다. ! – Burhan