2013-08-29 5 views
0

위도/경도로 지오 태그가 지정된 사진 세트를 클러스터링하기 위해 sci-kit 학습 DBSCAN 구현을 실행했습니다. 대부분의 경우 잘 작동하지만 몇 가지 예기치 않은 문제가 발생했습니다. 예를 들어, 센트럴 파크에서 사진을 찍은 것으로 사용자가 입력 한 텍스트 필드가 지정되었지만 해당 사진의 위도/경도가 함께 클러스터되지 않은 두 세트의 사진이있었습니다. 사진 자체는 두 세트의 관측이 센트럴 파크에서 나온 것이지만 위도/경도가 실제로는 epsilon보다 멀리 떨어져 있음을 확인했습니다.잠재적으로 부정확 한 위도/경도 좌표를 가진 DBSCAN

약간의 조사가 끝난 후 휴대 전화 GPS에서 생성 된 위도/경도 지오 태그 (latot/long geotags)가 매우 부정확하기 때문에이 원인이 발견되었습니다. 각 사진의 위치 정확도를 살펴보면 폭이 넓고 (최대 600 미터 오차가 있음) 위치 정확도를 고려할 때이 두 세트의 사진이 포함되어 있음을 발견했습니다. 위도/경도로 가까운 거리.

DBSCAN을 수행 할 때 위도/경도의 오차 한계를 설명 할 수있는 방법이 있습니까?

( :이 질문은 내가 더 분명히 알려 주시기 바랍니다 만들기 위해 할 수있는 일이 있다면 그래서,해야으로 똑 같은 경우 확실하지 않습니다.)

+1

사소한 대답 "엡실론 증가"가 있습니까? 그것은 당신이 사용하는 포인트 사이의 거리를 재 작업하는 것 이외에 문제를 해결할 수있는 유일한 방법 인 것 같습니다. – Save

+0

GPS 코드의 여러 샘플을 가져 왔다고 생각하십니까? – VoronoiPotato

+0

@ VoronoiPotato 흠, 좋은 생각입니다. 나는 그것을 시도하고 어떤 일이 일어나는지 보겠습니다. – user139014

답변

1

참고 DBSCAN은 실제로 거리를 필요로하지 않습니다.

일반화 된 DBSCAN 찾기 : 실제로 사용되는 것은 모두 "이웃과의 관계"입니다.

불확실성을 통합해야하는 경우 부정확 한 데이터를 명시 적으로 처리하는 다양한 DBSCAN 변형 및 확장을 찾아보십시오. 그러나 엡실론에 대한 임계 값을 선택하는 것만으로도 비슷한 결과를 얻을 수 있습니다. 적절한 것으로 생각되는 큰 엡실론을 선택할 여지가 있습니다. 엡실론 = 1km를 사용하고 100m 범위의 데이터가 부정확하다고 가정 할 경우, 대신 엡실론으로 1100m을 사용하십시오.