2016-06-27 11 views
0

DBSCAN에는 두 개의 매개 변수 (minPts 및 Eps)가 필요합니다. 그러나 OPTICS에 필요한 매개 변수는 혼란 스럽습니다. 일부 출처는 eps가 필요하다고 말하고 다른 일부는 minPts 만 필요하다고하기 때문입니다.자동 클러스터링을위한 DBSCAN 대 OPTICS

이상치를 가장 잘 제거 할 수있는 매개 변수 값을 자동으로 결정하려고 시도 할 때 어떤 알고리즘을 사용하면 더 좋을까요?

답변

3

the original paper에 따르면 minPts와 Eps가 모두 필요합니다. Eps가 필요 없다는 소식통은 자동으로 좋은 값을 결정하기 위해 어떤 방법을 사용하고있을 것입니다. 그러나 Eps는 알고리즘의 런타임을 줄이기 위해 포함되었습니다. 필수는 아닙니다.

이상치 제거에 가장 적합한 것은 숫자로 결정을 내리는 것보다 더 좋은 방법은 없습니다. 데이터 세트를 가져 와서 특이점에 레이블을 지정한 다음 두 알고리즘을 모두 실행하는 것입니다. 클러스터를위한 성능 측정 (AUC, F 점수 등)을 사용하여 최고를 선택하십시오.

+0

OPTICS 알고리즘에 대해 혼란스러워했던 개념 중 하나는 잡음을 최소화하기 위해 자동으로 도달 가능성을 어떻게 결정합니까? – user3315340

+0

이 논문에서는 노이즈 제거와 관련된 두 가지 거리, 즉 점 (대상) p의 중심 거리를 정의합니다.이 거리는 가장 가까운 지점과의 거리로, 공간으로 둘러싸인 점의 수를 minPts로 간주합니다. 그러면 o의 중심 거리 또는 o와 p 사이의 거리 (d (o, p)) 중 최대 값 인 두 지점 p와 o (o는 클러스터의 원점)의 도달 거리 거리가 있습니다. o의 중심 거리보다 작을 수 있음). 그림 4를 참조하십시오. – Dylon

+0

일부 Eps '<= Eps, reachabillity-distance> Eps'이고 코어 거리가> Eps '인 경우 객체는 노이즈로 분류됩니다. 이 그림의 그림 8에는 이에 대한 알고리즘이 자세히 설명되어 있습니다. – Dylon

1

OPTICS는 eps = infinity로 실행할 수 있습니다. 하지만 O (n^2) 복잡도입니다. (실제로 가속을 위해 인덱스를 사용하는 구현이 있다고 가정하십시오.)

그러나 OPTICS에는 잡음에 대해 잘 정의 된 개념 인 DBSCAN이 없습니다. 가장 가까운 곳은 클러스터 계층의 최상위 레벨 (즉, 전체 데이터 세트)에서 아래 클러스터에있는 항목을 뺀 것입니다. 그러나 계층 형 클러스터링을 사용하면 의 계층에 여러 수준에서 "노이즈"가있을 수 있으므로 더 이상 여기서는 노이즈의 개념이 더 이상 작동하지 않습니다.

관련 문제