0
DBSCAN 클러스터링 알고리즘을 구현하기 위해 python으로 코드를 작성했습니다. 내 데이터 세트는 14k 사용자로 구성되며 각 사용자는 10 개의 기능으로 표시됩니다. 입력으로 Min_samples 및 엡실론의 값을 정확히 유지할 것인지 결정할 수 없습니다. 어떻게 결정해야합니까? 유사성 측정 값은 유클리드 거리입니다 (따라서 결정하기가 더욱 어려워집니다).입력 값을 DBSCAN 알고리즘으로 결정
데이터 집합의 유클리드 거리를 계산하십시오. 작동합니까? 합리적인 유사성 임계 값은 무엇입니까? 그런 다음이 임계 값을 DBSCAN의 엡실론으로 사용하십시오. –
내 데이터 세트에서 유클리드 거리를 어떻게 평가해야합니까? – Maxwell
@ Anony-Mousse : 나는 이것을 생각하고 있었다 : 유클리드 거리를 0-1 이내로 정상화하는 것이 합리적일까요? 이제 거리는 10k +와 같이 무언가로 올라가서 임계점을 결정하기가 어려울 수 있습니다. 그러나 그것을 정상화하는 방법을 모르겠습니다. 어떤 아이디어? – Maxwell