2013-02-26 2 views
0

그래서 클러스터링 알고리즘을 usg가 제공 한 지구 데이터에 적용하려고합니다.클러스터링 알고리즘 - 지진 데이터 집합에 적용

http://earthquake.usgs.gov/earthquakes/feed/

내 주요 목표는 상위 10 가장 위험한 장소를 결정하는 것입니다 (중 지진의 양이나 장소 경험이 있다는 지진의 크기에 의해) 지진 피드를 기반으로합니다.

어떻게 할 수 있습니까? 나는 k-means를보고 있는데, 가장 위험한 클러스터를보기 위해 k-means (각 클러스터에서 가중치를 적용한 각 지진 크기를 가짐)의 합계를 취합니다.

저는 이것을 루비에서 코드 레퍼런스로 쓰고 있습니다.

감사합니다.

+0

"위험한 장소"를 설명하거나 공식화 할 수 있습니까? 한 무리의 모든 지진의 크기를 합한 것입니까? –

+0

클러스터의 위험도 값을 클러스터의 모든 지진 크기의 합계로 정의하면 클러스터를 찾기 위해 크기를 사용할 필요가 없습니다. BTW, 밀도 기반 클러스터링 알고리즘은 임의의 모양 클러스터를 포함 할 수있는 이러한 유형의 질문에 더 적합하다고 생각합니다. –

+0

안녕하세요, 기본적으로 표준 클러스터 알고리즘을 수행하는 것이 합당한 질문을 업데이트 한 다음 크기를 비교하기 위해 합계를 합산하십시오. 다른 관점은 항상 멋지다. – svmath123

답변

2

K-means는 데이터 세트의 이상 치를 잘 처리 할 수 ​​없습니다.

또한 분산으로 설계되었지만 위도와 경도의 분산은 실제로 의미가 없습니다. 사실, k-means는 위도 + -180 ° 랩 어라운드를 처리 할 수 ​​없습니다. 대신 큰 원 거리을 사용하는 것이 좋습니다.

따라서 밀도 기반 클러스터링 알고리즘을 사용하여 큰 원 거리와 같은 거리를 사용할 수 있습니다!

위키피디아와 클러스터 분석에 대한 훌륭한 책을 읽으십시오.

관련 문제