2013-05-23 4 views
1

Weka Gui - Explorer와 을 사용하고 있는데 클래스 {male, female}에 따라 데이터를 분류하고 싶습니다. REPTree 분류자를 기본으로 MultiBoostAB 분류자를 사용합니다. 훈련 세트 (557 인스턴스)weka의 모델로 이상한 결과가 발생했습니다.

을 사용하여 분류 자의 정확성을 평가하려고 시도한 다음 약 300 개의 속성을 갖는 테스트 세트 (200 인스턴스)를 테스트하려고합니다. 정확도 비율은 83,5 % - 167이며 인스턴스가 정확하게 구체화됩니다 ( ). 카파 통계는 0,67입니다. 이 모델을 저장하고 예측에 사용했습니다.

다른 미숙 한 데이터의 레이블 (남성 또는 여성)이 거의 동일한 좋은 결과를 얻었습니다. 그럼 내 훈련의 크기를 1000 인스턴스로 늘려 이 내 분류기의 정확도를 향상시킬 수 있는지 확인했습니다. > 87.0423 % 테스트 (200 개) 인스턴스의 집합을 실행 올바르게 분류 인스턴스 및 카파 통계 0,7335

  • - - 올바르게 분류> 59 %를 360 개 인스턴스의 테스트 세트 실행

    • : 나는 다음과 같은 결과를 얻었다 인스턴스 및 카파 통계 0,18

    왜 내가 훈련 집합의 크기를 내 모델이 더 증가 할 때 (이 여성으로 내 데이터의 대부분이 예측)?

  • 답변

    1

    실제로 훈련 데이터를보고 분석하지 않아도 실제로 말하기가 어렵습니다.

    내 첫 번째 추측은 훈련 세트에 추가하는 추가 443 인스턴스가 매우 다르기 때문에 분류자가 완전히 다른 모델을 학습한다는 것입니다.

    443 개의 인스턴스에서만 모델을 훈련하면 어떻게됩니까? 테스트 세트의 정확도가 더 나쁠 경우 일반화하기에 교육 데이터가 최선이 아닐 수도 있습니다.

    +0

    @alkis 아무 문제 없습니다. 그렇지 않다면 어쨌든 우리에게 결과를 말해 주시고 어쩌면 우리는 여전히 이것의 최하층에 도달 할 수 있습니다. – Sentry

    관련 문제