2014-11-16 5 views
1

저는 구형에 분산 된 데이터 세트를 가지고 있으며 scikit-learn에서 배포 한 DBSCAN 함수에 어떤 메트릭을 제공해야하는지 이해하려고합니다. 유클리드 측정 기준이 될 수는 없습니다. 측정 기준은 유클리드 기준이 아니므로 배포됩니다. sklearn 패킷에 이러한 사례에 대해 구현 된 측정 항목이 있거나 작은 하위 집합의 데이터를 (길고 지루한 경우) 가장 쉬운 방법으로 나누고 있습니까?구형 미터법으로 sklearn의 DBSCAN을 사용하는 방법은 무엇입니까?

P. 나는 파이썬에 멍청하다.

P.P.S. 메트릭을 "미리 계산"하는 경우, 사전 계산 된 데이터를 어떤 형식으로 제출해야합니까? 좋아요?

0 -합니다 Event1 - event2 - ...

합니다 Event1 - 0 - 거리 (합니다 Event1, event2) - ...

event2 - 거리 (합니다 Event1, event2) - 0

하세요 도와 줘?

+0

나는 귀하의 P.P.S를 전혀 이해하지 못합니다 ... 어떤 측정 항목을 사용 하시겠습니까? –

+0

내가 처리해야하는 데이터는 천구에 분포하고, 위치는 적경과 천구의 편각으로 주어집니다. 포인트 사이의 거리를 계산하는 프로그램은 이미 가지고 있지만 이미 계산 된 거리를 dbscan에 "미리 계산 된 메트릭"으로 삽입하는 방법을 모르기 때문에 요구 사항에 이미 대응 한 메트릭이 있는지 궁금해졌습니다. – maythemoonshine

답변

0

metric="precomputed"을 사용해 보셨습니까?

그런 다음 DBSCAN.fit 기능 으로 데이터를 대신 전달하십시오. 문서에서

:

X 배열 [N_SAMPLES, N_SAMPLES] 또는 [N_SAMPLES, n_features]

샘플 사이의 거리

배열 또는 기능 어레이. 메트릭이 '사전 계산 됨'이 아니면 배열은 형상 배열로 처리됩니다.

관련 문제