2012-04-14 10 views
0

DBSCAN 클러스터링 알고리즘을 구현하기 위해 python으로 코드를 작성했습니다. 내 데이터 세트는 14k 사용자로 구성되며 각 사용자는 10 개의 기능으로 표시됩니다. 입력으로 Min_samples 및 엡실론의 값을 정확히 유지할 것인지 결정할 수 없습니다. 어떻게 결정해야합니까? 유사성 측정 값은 유클리드 거리입니다 (따라서 결정하기가 더욱 어려워집니다).입력 값을 DBSCAN 알고리즘으로 결정

+0

데이터 집합의 유클리드 거리를 계산하십시오. 작동합니까? 합리적인 유사성 임계 값은 무엇입니까? 그런 다음이 임계 값을 DBSCAN의 엡실론으로 사용하십시오. –

+0

내 데이터 세트에서 유클리드 거리를 어떻게 평가해야합니까? – Maxwell

+0

@ Anony-Mousse : 나는 이것을 생각하고 있었다 : 유클리드 거리를 0-1 이내로 정상화하는 것이 합리적일까요? 이제 거리는 10k +와 같이 무언가로 올라가서 임계점을 결정하기가 어려울 수 있습니다. 그러나 그것을 정상화하는 방법을 모르겠습니다. 어떤 아이디어? – Maxwell

답변

0

DBSCAN은 종종 매개 변수를 추정하기가 어렵습니다.

OPTICS 알고리즘에 대해 생각해 보셨습니까? 최소 클러스터 크기에 해당하는 Min_samples 만 필요합니다.

그렇지 않으면 DBSCAN에 대해 과거에 시행 착오를 거쳤습니다. 몇 가지 값을 시도하고 어떤 결과가 발생하는지 확인하십시오. 따라야 할 일반적인 규칙은 데이터 집합에 잡음이 많은 경우 더 큰 값을 가져야하며 차원 수 (이 경우 10 개)와 상관 관계가 있어야한다는 것입니다.

관련 문제