2013-07-06 2 views
0

나는 실시간으로 데이터 스트림,보다 정확하게는 트위터 스트림을 클러스터링하고있다. 스트림에서 데이터 포인트 (트윗)가 도착하면 가장 유사한 클러스터에 포인트가 지정됩니다. 클러스터링하는 동안 나는 시간이 지남에 따라 모든 클러스터의 크기를 추적하고 있습니다. 클러스터 크기가 모든 크기의 평균보다 커질 때마다이 클러스터를 중요한 클러스터 또는 트렌드 클러스터로 선언합니다. 그러나 크기가 일정 기간 동안 정적 인 상태로 유지되면이 클러스터를 비 트렌드 또는 중요하지 않다고 선언 할 수있는 방법을 찾을 수 없습니다. 왜냐하면 사람들이이 주제에 관해 트윗을 발행하지 않는다는 것을 의미하는 정적 인 상태이기는하지만 그 크기는 여전히 평균 이상일 것이기 때문에 그렇지 않은 경우에도 트렌드 클러스터로 남을 것입니다.클러스터를 결정하는 방법은 온라인 클러스터링에서 중요하지 않습니까?

이 문제를 해결하기 위해 생각한 한 가지 방법은 기간 매개 변수를 10 분과 같이 선언하여 크기가 동일하게 유지되는지 확인한 다음 비 증가로 선언하여 동향 목록에서 제거하는 것입니다.

기간 매개 변수보다이 문제를 처리하는 더 좋은 방법이 있는지 또는 기간 매개 변수를 결정하는 방법이 궁금합니다.

+0

질문의 주요 테마는 클러스터링보다 추세 감지에 더 관련이있는 것 같습니다. 그렇다면 다른 주제로 다시 게시 할 것을 제안합니다. @ Anony-Mousse가 말했듯이, 모델을 만들려는 대상에 대해 더 많은 색상을 지정할 수도 있습니다. – etov

답변

0

이전 클러스터를 잊어 버리는 적절한 규칙은 무엇인지 당신의 어플리케이션에 달려 있습니다.

우리가 공유 할 수있는 일반적인 규칙은 없습니다. 어떤 사람들은 클러스터를 영원히 유지하기를 원할 것이고 다른 사람들은 요소 시대를 가지고 있고 임계 값 이하로 줄어들면 클러스터를 해체하려고 할 것입니다. 그리고 더 이상 성장하지 않으면 분명히 그것을 잊고 싶습니다.

여러분이 모델링하고 싶은 것은 여러분에게 달려 있습니다.

+0

"내가 모델링하고 싶은 것"은 무엇을 의미합니까? 정확히 무엇을 모델링 했습니까? –

관련 문제