2014-01-14 2 views
-1

보험 회사에서 일하는 데이터 분석가가 고객이 모바일 주택 보험을 구입할 것인지를 예측하기위한 예측 모델을 작성하도록 요청했다고 가정 해 보겠습니다. 그는 다른 수의 이웃들 (k = 1,2,3,4,5)을 가진 kNN 분류자를 시도했다. S/그는 훈련 데이터에서 측정 된 다음과 같은 F 점수를 얻습니다 : (1.0; 0.92; 0.90; 0.85; 0.82). 분석가는 k = 1 인 kNN을 배포하기로 결정했습니다. 좋은 선택 이었나요? 이 경우 최적의 이웃 수를 어떻게 선택 하시겠습니까?데이터 마이닝 KNN 분류 자 ​​

+2

숙제와 같습니다. – goncalopp

+0

@ user3195317 이것은 일주일 늦었을 수도 있지만 * 숙제를 요청할 장소가 아닙니다! * 제발 그만해! * 다음에 물어 보는 방법 *을 읽으십시오! –

+0

@ user3195317 지침에 따라 질문을 개선 할 수 있다면 대답을 할 자격이 있다고 생각합니다. 다음에 질문 할 때 규칙을 무시하지 마십시오. 감사. –

답변

2

전체 훈련 세트를 사용하여 예측 알고리즘의 매개 변수를 선택하는 것은 좋지 않습니다. 결과는이 특정 교육 세트에 편향되며 일반화 성능 (예 : 보이지 않는 경우에 대한 성능)에 대한 정보가 없기 때문입니다. 예를 들어 상호 유효성 검사 기술을 적용해야합니다. 10 배 교차 검증을 사용하여 범위 내에서 최상의 K (즉, 가장 큰 F 값을 갖는 K)를 선택한다. 여기에는 10 개의 동일한 부분으로 교육 데이터를 분할하는 작업이 포함되며, 교육을 위해 9 개 부분과 유효성 검사를 위해 1 개 부분을 보유합니다. 유효성 검사를 위해 각 부분이 빠지도록 반복하십시오. 충분한 폴드를 취하면 F 값의 통계를 얻을 수있게되고 다른 K 값에 대한 이러한 값이 통계적으로 중요한지 테스트 할 수 있습니다.

또한 : http://pic.dhe.ibm.com/infocenter/spssstat/v20r0m0/index.jsp?topic=%2Fcom.ibm.spss.statistics.help%2Falg_knn_training_crossvalidation.htm

여기서 미묘한 점은 예측을위한 데이터 요소의 수와 K- 값 간의 종속성이있을 가능성이 높다는 것입니다. 따라서 교차 유효성 검사를 적용하는 경우 9/10의 교육 세트를 사용하여 교육을받습니다 ...이 경우 어떤 연구가 수행되었는지 여부와 최종 교육 세트에서이를 교정하는 방법은 확실하지 않습니다. 어쨌든 대부분의 소프트웨어 패키지는 위에서 언급 한 기술을 사용합니다. 링크에서 SPSS를 참조하십시오. 해결 방법은 leave-one-out 교차 유효성 검사 (각 데이터 샘플은 테스트를 위해 한 번 남겨 둡니다)를 사용하는 경우 N-1 훈련 샘플 (원본 훈련 세트에는 N)이있는 것입니다.