2016-11-10 1 views
0

로그 집계를 위해 Hadoop에서 POC를 수행하려고합니다. 적어도 100 개의 사이트를 호스팅하는 여러 IIS 서버가 있습니다. HDFS로 지속적으로 로그를 스트리밍하고 추가 분석을 위해 Hive에 데이터를 파싱하고 저장하려고합니다.IIS 로그 Hadoop 실시간 스트리밍

1) 아파치 카프카 올바른 선택 또는 Apache 수로

2) 스트리밍 후 더 나은 제안에 도움이 종류의 또한 정보하시기 바랍니다 아파치 폭풍을 사용하고 하이브

데이터를 섭취하는 것입니다 문제 진술서의

감사

답변

0

당신은 HDFS에 데이터를 얻기 위해 하나 Kafka or flume은 또한 당신이 모두 결합 할 수 있습니다 사용할 수 있지만 사용 가능한 오픈 소스 데이터 흐름 관리 도구가 있습니다이 코드를 작성해야합니다, 당신은 코드를 작성할 필요가 없습니다. 예 : NiFi and Streamsets

별도의 수집 도구를 사용할 필요없이 직접 데이터 흐름 도구를 사용하여 데이터를 하이브 테이블에 저장할 수 있습니다. 하이브에 테이블을 만들면 쿼리를 제공하여 분석을 수행 할 수 있습니다.

다른 문제가 있음을 알려주세요.

+0

답장을 보내 주셔서 감사합니다. Kafka 또는 Flume이 5 분 정도 지연되어 IIS 웹 서버에서 데이터가 만들어지면 현재 파일에서 파일을 전송하거나 데이터를 전송할 수 있습니까? – user7139920

+0

예 .. 거의 실시간으로 스트리밍하는 것과 같습니다 ... –

+0

소스면 https://nifi.apache.org/docs/nifi-docs/components/org.apache에서 5 분으로 NiFi의 구성 요소 TailFile을 사용할 수 있습니다. nifi.processors.standard.TailFile/index.html –