2016-11-23 4 views
0

현재 물류 회귀 및 임의 숲 (예 : scikit-learn)을 사용하여 신호를 추정하는 프로젝트를 진행 중입니다.신호 예측에서 잘못된 음성 속도 감소

지금 혼란 행렬을 사용하여 예측에서 다른 알고리즘의 성능을 예측하고 있는데 두 알고리즘 모두에 공통적 인 문제가 있음을 발견했습니다. 즉, 모든 경우에 알고리즘의 정확도는 비교적 좋지만 (약 90 % - 93 %) TP (FNR < 3 %)에 비해 FN의 총 수가 매우 높습니다. 어떤 사람이 내 예측 문제에서 이런 종류의 문제가 발생했는지에 대한 단서가 있습니다. 가능한 경우이 문제를 해결할 수있는 방법에 대한 힌트를 제공 할 수 있습니까?

미리 답변 해 주셔서 감사합니다.

업데이트 : 데이터 세트는 매우 불균형 (8 : 1)으로 총 180,000 회의 관측이 있습니다. 이미 OSS, SMOTE (+ Tomek 또는 + ENN)와 같은 여러 재 샘플링 방법을 테스트했지만 어느 것도 좋은 결과를 반환하지 않습니다. 두 경우 모두 리콜이 2.5 %에서 20 %로 증가하지만 정확도는 크게 떨어집니다 (60 %에서 20 %로).

+1

라이브러리를 사용하고 있습니까? –

+0

예, 저는 Scikit을 사용하고 있습니다. – Biertje

답변

0

아마도 불균형 데이터 세트를 가지고있을 것입니다. 클래스 중 하나에 다른 클래스보다 많은 예제가있는 경우가있을 것입니다.

한 가지 해결책은 적은 수의 예제로 클래스를 잘못 분류하는 데 더 많은 비용을 들여야한다는 것입니다.

크로스 인증 됨에서이 질문은 문제에 대한 다양한 접근 방법을 포함

:

당신이 첫 번째 방법으로, 당신이 할 수있는 scikit-learn를 사용하고있는 점을 감안, balanced에 매개 변수 class_weight을 설정 편집 https://stats.stackexchange.com/questions/131255/class-imbalance-in-supervised-machine-learning

Logistic regression에 있습니다.

+0

정확히, 데이터 세트는 극도로 불균형합니다 (약 8 : 1). SMOTE와 같은 재 샘플링 방법을 이미 시도했지만 어느 것도 좋은 결과를 반환하지 않습니다. – Biertje

+0

다음에 더 많은 정보를 제공해 주시겠습니까? 혼란 행렬과 데이터 샘플을 게시 하시겠습니까? –

+0

빠른 답장을 보내 주셔서 감사합니다. 나는 또한 균형을 맞추기 위해 class_weight를 시도했지만 정확도는 약 75 %로 떨어졌습니다. – Biertje

관련 문제