나는 문서를 분류하기 위해 weka SMO 분류자를 사용하고 있습니다. Kernal, 관용 등과 같이 사용할 수있는 smo에 대한 많은 매개 변수가 있습니다. 다른 매개 변수를 사용하여 테스트했지만 좋은 결과를 얻지 못했습니다.weka에서 SMO 분류기의 성능을 향상시키는 방법은 무엇입니까?
90 개 카테고리의 경우 20 % 문서 만 올바르게 분류됩니다.
SMO에서 최고의 성능을 얻으려면 매개 변수 집합을 알려주십시오.
나는 문서를 분류하기 위해 weka SMO 분류자를 사용하고 있습니다. Kernal, 관용 등과 같이 사용할 수있는 smo에 대한 많은 매개 변수가 있습니다. 다른 매개 변수를 사용하여 테스트했지만 좋은 결과를 얻지 못했습니다.weka에서 SMO 분류기의 성능을 향상시키는 방법은 무엇입니까?
90 개 카테고리의 경우 20 % 문서 만 올바르게 분류됩니다.
SMO에서 최고의 성능을 얻으려면 매개 변수 집합을 알려주십시오.
여기서 중요한 문제는 분류 자체가 아니라 적절한 기능을 선택하는 것입니다. 원시 HTML을 사용하면 매우 큰 노이즈가 발생하여 차례로 분류 결과가 매우 나 빠지게됩니다. 따라서, 다음과 같은 좋은 결과가 어떻게 얻을 :
대부분의 아마 분류 유형은 여기에 큰 역할을하지 않습니다 사전 기반 기능은 일반적으로 사용에서 관계없이 분류 기술의 매우 정확한 결과로 이어집니다. SVM (SMO), Naive Bayes, ANN 또는 심지어 kNN을 사용할 수 있습니다. 보다 정교한 방법에는 카테고리 계층 구조의 생성이 포함되며, 카테고리 "커피"는 카테고리 "음식"의 일부인 카테고리 "음료"에 포함됩니다.
범용 _best_ 매개 변수 설정이 없습니다. 이것은 전적으로 귀하의 데이터 및 요구 사항에 따라 다릅니다. 우리가 어떤 대답을주기 위해서 우리는 당신에게 당신이 원하는 것을 정확히 기술 할 필요가 있습니다. – Sicco
@Sicco 편집을 참조하십시오. – SANN3
선형 svm과 같은 간단한 방법을 사용해 보셨습니까? 당신의 특징은 무엇입니까? – SlimJim