2017-04-05 2 views
0

시간 범위 (시간 단위)에 걸쳐 앱의 순 방문자수를보고하려는 유스 케이스가 있습니다.시간 범위 분석에서 순 방문자수를 셉니까?

예 : 0시에 {A, B, C, D}의 방문자를 추적했으며 시간 1에 {C, D, E, F}가 있다고 가정하고 2시에는 {E, F, A , B} 그리고 3시에는 {A, C}가 있습니다. 1 시간에서 3 시간 사이에 몇 명의 순 방문자가 있었는지에 대한 답변을해야하며 동시에 시간 0에서 시간 3 사이의 순 방문자 수에 대한 답변을 제공해야합니다.

물론 고유 방문자 ID를 모두 저장할 수는 없지만 주어진 시간 동안 BloomFilter를 저장할 수 있습니다.

노동 조합을 계산하기 위해 inclusion-excluding 속성을 사용할 계획 이었지만 프레임 워크가 있는지 또는 어떤 것이 좋은 해결책인지 알고 싶습니다.

빅 데이터 테크놀로지 : hdfs 설정, 하이브 및 스파크, 카프카가 있습니다.

+0

매 시간마다 현재 솔루션에서 이전 시간과 비교하여 새로운 방문자를 계산할 계획입니다. 시간 5의 데이터를 처리 할 때 예를 들어 다음을 계산할 계획입니다. 1. 시간 5의 순 방문자 수 2. 시간대가 아닌 시간 5의 신규 방문자 4. 3. 시간대가 아닌 시간대 5의 새로운 방문자 3, 4 시간 등 .... –

+0

당신은 스파크 스트리밍을보고 있어야합니다, 그것은 많은 [transformations and window operations]을 내장하고 있습니다 (http://spark.apache.org/docs/latest/streaming-programming- guide.html # transformations-on-dstreams)을 사용하십시오. –

답변

관련 문제