2012-09-14 9 views

답변

2

DBSCAN은 유사한 객체를 탐지하기위한 거리 함수와 임계 값이 필요합니다.

먼저 적절한 거리 함수와 임계 값을 정의해야합니다. 그러면 DBSCAN에 대해 도움을 줄 수 있습니다 (그러나 임의의 거리 함수로 확장 할 수있는 DBSCAN 구현을 찾을 수 있어야합니다).

중요한 도전은 거리이며, 우리는 을 알고 있기 때문에을 알고 싶어합니다. 이것은 매우 주관적이며, 우리는 단지 당신이 원하거나 필요로하는 것을 모릅니다.

+0

그렇습니다. 거리 함수는 그래프에서 탐지 할 포인트가있을 때 발생합니다. 유사한 도메인 확장자를 일치시키고 그룹화하여 URL을 가져 오는 방법을 고려할 수 있습니까? –

+1

DBSCAN은 그래프를 사용하지 않습니다. 거리 함수를 사용하므로 URL에 대한 거리 함수를 정의해야합니다. –

+0

그래, URL에 대해 정의 할 수있는 방법을 알아야합니다. –

관련 문제