개체가 A 또는 B로 분류 된 데이터 집합에서 knn (R)을 실행하고 있습니다. 그러나 B보다 A가 많습니다 (A 클래스 중 18 개는 B 등급마다 1).k- 가장 가까운 이웃 각 클래스의 개체 수가 크게 다릅니다.
어떻게해야합니까? 예를 들어 내가 18의 ak를 사용하고 이웃에 7 개의 B가있는 경우 (18의 그룹에서 평균 B보다 더 길다) 테스트 데이터는 아마 B 일 때 A로 분류됩니다.
나는 더 낮은 k가 나를 도울 것이라고 생각하고있다. 열차 집합의 클래스 빈도와 관련하여 k 값을 선택하는 데 도움이되는 규칙이 있습니까?
조언 해 주셔서 감사합니다. 나는 비율을 낮추기 위해 일부 A를 제거하고 작은 k를 사용했습니다. 나는 그 결과에 만족한다. – Colin