1

저는 Weka의 분류 작업을하고 있으며, 예측할 클래스가 매우 빈번한 (약 85 %) 하나의 값을 가지고 있다는 문제가 있습니다. 이는 새로운 데이터 세트에 대해이 클래스의 빈번한 값을 예측하는 많은 학습 알고리즘으로 이어집니다.빈번한 수업 처리 방법은 무엇입니까?

어떻게이 문제를 해결할 수 있습니까? 단지 뭔가를 더 잘 예측할 수있는 기능을 찾지 못했습니까? 아니면이 문제를 해결하기 위해 할 수있는 구체적인 방법이 있습니까?

나는 이것이 매우 일반적인 문제라고 생각하지만, 여기에 대한 해결책을 찾을 수 없었다.

+1

클래스! = 기능. –

+3

가능한 [통계 패키지의 멀티 클래스 불균형 분류 도구] (http://stackoverflow.com/questions/12877153/tools-for-multiclass-imbalanced-classification-in-statistical-packages), [낮은 처리 방법 분류의 빈도 예]?] (http://stackoverflow.com/questions/17618532/how-to-deal-with-low-frequency-examples-in-classification) 및 기타 여러 가지 질문이 있습니다. –

+0

빠른 도움을 제공해 주셔서 감사합니다. 이 질문들은 그 문제의 이름을 붙이는 방법과 그것을 해결하는 방법에 대한 힌트를줍니다. 그리고 용어를 섞어서 미안해. Weka는 처음에 orginally 그들을 배웠던 것과 다른 방식으로 그들을 사용합니다. – Martin

답변

1

데이터를 "SMOTE"해야합니다. 먼저 소수의 사례가 몇 번 더 필요한지 파악하십시오. 제 경우에는 50/50 비율로 돌아가고 싶었 기 때문에 1300 % 이상의 샘플을 필요로했습니다. 당신이 GUI를 사용하는 경우이 튜토리얼이 도움이 될 것입니다 :

#Weka 3.7.7 
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \ 
-c last -K 25 -P 1300.0 -S 1 -i input.arff -o output.arff 

-k 옵션이 취할 이웃의 수 : 당신이 웨카을 사용하여 명령 줄에서이 작업을 수행하는 경우 http://www.youtube.com/watch?v=w14ha2Fmg6U, 다음 명령은 가야합니다 데이터를 쓸어 낼 때 고려해야합니다. 기본값은 5이지만 25가 내 데이터 집합에 가장 적합했습니다.

+1

고마워! 솔루션에 추가로 : 메타 분류기 FilteredClassifier는 메타를 지원합니다 (메타/FilteredClassifier). 특히 오버 샘플링이 얼마나 필요한지 (얼마나 많은 인공 데이터 세트가 추가되어야하는지) 시도 할 때. – Martin

관련 문제