나는 훈련 데이터 세트에서 클래스 레이블의 대다수가 1 인 (다른 클래스 레이블이 0 인) 입력 테스트 데이터 세트 을 처리해야하고 binary-classification
을 수행해야합니다. - 0
또는 1
마지막 열은 class-label
이다이 불평형 클래스의 비뚤어 짐 데이터 세트를 처리하는 방법은 무엇입니까?
93.65034,94.50283,94.6677,94.20174,94.93986,95.21071,1
94.13783,94.61797,94.50526,95.66091,95.99478,95.12608,1
94.0238,93.95445,94.77115,94.65469,95.08566,94.97906,1
94.36343,94.32839,95.33167,95.24738,94.57213,95.05634,1
94.5774,93.92291,94.96261,95.40926,95.97659,95.17691,0
93.76617,94.27253,94.38002,94.28448,94.19957,94.98924,0
예 :
는 다음 트레이닝 데이터의 일부이다. 실제 데이터 세트는 10:1
클래스 비율로 매우 비뚤어졌습니다. 약 700 샘플의 0은 class label
이고 나머지 6800은 1이 class label
입니다.
언급 위를
만 주어진 데이터 세트의 모든 샘플의 몇 가지 있지만, 실제 데이터 세트는 사실에도 불구하고, 약90%
1
로
class-label
및
class-label
이
0
인과 나머지 샘플을 포함 그것은 거의 모든 샘플이 매우 유사하다는 것입니다.
이런 종류의 데이터 세트를 처리하는 데 가장 적합한 분류기는 무엇입니까?
나는 이미 logistic-regression
과 svm
을 class-weight
매개 변수가 "balanced"
으로 설정했지만 정확성은 크게 개선되지 않았습니다.
프로그래밍상의 질문이 아니기 때문에 [Cross Validated] (http://stats.stackexchange.com/) – Tchotchke