보험 회사에서 일하는 데이터 분석가가 고객이 모바일 주택 보험을 구입할 것인지를 예측하기위한 예측 모델을 작성하도록 요청했다고 가정 해 보겠습니다. 그는 다른 수의 이웃들 (k = 1,2,3,4,5)을 가진 kNN 분류자를 시도했다. S/그는 훈련 데이터에서 측정 된 다음과 같은 F 점수를 얻습니다 : (1.0; 0.92; 0.90; 0.85; 0.82). 분석가는 k = 1 인 kNN을 배포하기로 결정했습니다. 좋은 선택 이었나요? 이 경우 최적의 이웃 수를 어떻게 선택 하시겠습니까?데이터 마이닝 KNN 분류 자
-1
A
답변
2
전체 훈련 세트를 사용하여 예측 알고리즘의 매개 변수를 선택하는 것은 좋지 않습니다. 결과는이 특정 교육 세트에 편향되며 일반화 성능 (예 : 보이지 않는 경우에 대한 성능)에 대한 정보가 없기 때문입니다. 예를 들어 상호 유효성 검사 기술을 적용해야합니다. 10 배 교차 검증을 사용하여 범위 내에서 최상의 K (즉, 가장 큰 F 값을 갖는 K)를 선택한다. 여기에는 10 개의 동일한 부분으로 교육 데이터를 분할하는 작업이 포함되며, 교육을 위해 9 개 부분과 유효성 검사를 위해 1 개 부분을 보유합니다. 유효성 검사를 위해 각 부분이 빠지도록 반복하십시오. 충분한 폴드를 취하면 F 값의 통계를 얻을 수있게되고 다른 K 값에 대한 이러한 값이 통계적으로 중요한지 테스트 할 수 있습니다.
여기서 미묘한 점은 예측을위한 데이터 요소의 수와 K- 값 간의 종속성이있을 가능성이 높다는 것입니다. 따라서 교차 유효성 검사를 적용하는 경우 9/10의 교육 세트를 사용하여 교육을받습니다 ...이 경우 어떤 연구가 수행되었는지 여부와 최종 교육 세트에서이를 교정하는 방법은 확실하지 않습니다. 어쨌든 대부분의 소프트웨어 패키지는 위에서 언급 한 기술을 사용합니다. 링크에서 SPSS를 참조하십시오. 해결 방법은 leave-one-out 교차 유효성 검사 (각 데이터 샘플은 테스트를 위해 한 번 남겨 둡니다)를 사용하는 경우 N-1 훈련 샘플 (원본 훈련 세트에는 N)이있는 것입니다.
관련 문제
- 1. 정보 마이닝, 분류, 수정
- 2. 분류 자 사용 방법
- 3. OpenCV의 KNN 알 수없는 분류
- 4. MATLAB의 KNN 분류 - 혼동 행렬 및 ROC?
- 5. 사용할 데이터 마이닝 도구는 무엇입니까?
- 6. 래퍼 메서드가있는 앙상블 분류 자
- 7. 연속 데이터 (실제 값 데이터)에 순진 베이 분류 자
- 8. Weka : 분류 자 및 ReplaceMissingValues
- 9. 범주 형 데이터를 사용한 KNN 분류
- 10. 모든 경우에 KNN 분류 알고리즘이 작동하지 않습니다.
- 11. J48 및 IBk (KNN) 알고리즘으로 분류
- 12. Weka + NaiveBayes 분류 분류 자 + 텍스트 분류
- 13. 얼굴 인식 분류 자
- 14. 시각적 데이터 마이닝 및 이미지 데이터 마이닝?
- 15. ILP가없는 관계형 데이터 마이닝
- 16. 큰 데이터 세트를위한 최대 엔트로피 분류 자
- 17. K- 가까운 이웃 분류 자 정확도
- 18. haar 분류 자 교환
- 19. 신경망 분류 자
- 20. 베이지안 분류 자
- 21. 인간의 속성 분류 자
- 22. 분류 자 훈련 시간
- 23. Naive Bayes 분류 자
- 24. 문서의 Mahout "분류 자"
- 25. 트로피 분류 자 정의
- 26. 차이보고 분류 자
- 27. OpenCV XML 분류 자
- 28. Maven Jar 분류 자
- 29. HAAR 분류 자 명확화
- 30. PHP 베이지안 분류 자
숙제와 같습니다. – goncalopp
@ user3195317 이것은 일주일 늦었을 수도 있지만 * 숙제를 요청할 장소가 아닙니다! * 제발 그만해! * 다음에 물어 보는 방법 *을 읽으십시오! –
@ user3195317 지침에 따라 질문을 개선 할 수 있다면 대답을 할 자격이 있다고 생각합니다. 다음에 질문 할 때 규칙을 무시하지 마십시오. 감사. –