2016-06-03 2 views
0

개체가 A 또는 B로 분류 된 데이터 집합에서 knn (R)을 실행하고 있습니다. 그러나 B보다 A가 많습니다 (A 클래스 중 18 개는 B 등급마다 1).k- 가장 가까운 이웃 각 클래스의 개체 수가 크게 다릅니다.

어떻게해야합니까? 예를 들어 내가 18의 ak를 사용하고 이웃에 7 개의 B가있는 경우 (18의 그룹에서 평균 B보다 더 길다) 테스트 데이터는 아마 B 일 때 A로 분류됩니다.

나는 더 낮은 k가 나를 도울 것이라고 생각하고있다. 열차 집합의 클래스 빈도와 관련하여 k 값을 선택하는 데 도움이되는 규칙이 있습니까?

답변

1

THER, 당신의 경우에 나는 매우 작은 케이 그러한 규칙하려고하지 않을 것이다 아마 데이터 세트에 대해

3 사이, 6, 테스트 데이터 또는 실제 데이터는 같은 비율 대해에서 발견하지 않는 한 (18 : 1) 나는 더 정확한 결과를 얻기 위해 약간의 A를 제거 하겠지만, 당신이 비율의 효과를 잃을 것이기 때문에 비율이 실세계 데이터에 실제로 가까우면 조언하지 않을 것입니다. 확률 데이터).

+0

조언 해 주셔서 감사합니다. 나는 비율을 낮추기 위해 일부 A를 제거하고 작은 k를 사용했습니다. 나는 그 결과에 만족한다. – Colin

관련 문제