로그 집계를 위해 Hadoop에서 POC를 수행하려고합니다. 적어도 100 개의 사이트를 호스팅하는 여러 IIS 서버가 있습니다. HDFS로 지속적으로 로그를 스트리밍하고 추가 분석을 위해 Hive에 데이터를 파싱하고 저장하려고합니다.IIS 로그 Hadoop 실시간 스트리밍
1) 아파치 카프카 올바른 선택 또는 Apache 수로
2) 스트리밍 후 더 나은 제안에 도움이 종류의 또한 정보하시기 바랍니다 아파치 폭풍을 사용하고 하이브
에데이터를 섭취하는 것입니다 문제 진술서의
감사
답장을 보내 주셔서 감사합니다. Kafka 또는 Flume이 5 분 정도 지연되어 IIS 웹 서버에서 데이터가 만들어지면 현재 파일에서 파일을 전송하거나 데이터를 전송할 수 있습니까? – user7139920
예 .. 거의 실시간으로 스트리밍하는 것과 같습니다 ... –
소스면 https://nifi.apache.org/docs/nifi-docs/components/org.apache에서 5 분으로 NiFi의 구성 요소 TailFile을 사용할 수 있습니다. nifi.processors.standard.TailFile/index.html –