2012-08-29 4 views
1

나는 문서를 분류하기 위해 weka SMO 분류자를 사용하고 있습니다. Kernal, 관용 등과 같이 사용할 수있는 smo에 대한 많은 매개 변수가 있습니다. 다른 매개 변수를 사용하여 테스트했지만 좋은 결과를 얻지 못했습니다.weka에서 SMO 분류기의 성능을 향상시키는 방법은 무엇입니까?

90 개 카테고리의 경우 20 % 문서 만 올바르게 분류됩니다.

SMO에서 최고의 성능을 얻으려면 매개 변수 집합을 알려주십시오.

+1

범용 _best_ 매개 변수 설정이 없습니다. 이것은 전적으로 귀하의 데이터 및 요구 사항에 따라 다릅니다. 우리가 어떤 대답을주기 위해서 우리는 당신에게 당신이 원하는 것을 정확히 기술 할 필요가 있습니다. – Sicco

+0

@Sicco 편집을 참조하십시오. – SANN3

+0

선형 svm과 같은 간단한 방법을 사용해 보셨습니까? 당신의 특징은 무엇입니까? – SlimJim

답변

3

여기서 중요한 문제는 분류 자체가 아니라 적절한 기능을 선택하는 것입니다. 원시 HTML을 사용하면 매우 큰 노이즈가 발생하여 차례로 분류 결과가 매우 나 빠지게됩니다. 따라서, 다음과 같은 좋은 결과가 어떻게 얻을 :

  1. 추출 관련 텍스트. HTML 태그를 제거하는 것이 아니라 항목을 설명하는 텍스트를 정확하게 가져옵니다.
  2. 사전을 만듭니다. 예 : 카푸치노, 라떼, 흰 쌀 등
  3. stemming 또는 lemmatization을 사용하면 단어의 기본 형식을 가져와 예를 들어 "면화"와 "면화"를 2 개의 다른 단어로 계산하지 않아도됩니다.
  4. 만들기 특징 벡터 텍스트입니다. 속성 (지형지 물)은 사전의 모든 단어 여야합니다. 값은 바이너리 (텍스트에 단어가있는 경우 1, 그렇지 않은 경우 0), 정수 (텍스트에서 문제가되는 단어의 발생 횟수), tf-idf (텍스트의 길이가 다른 경우이 문자 사용) 등이 될 수 있습니다.
  5. 이러한 단계를 모두 거친 후에 만 ​​분류 자 ​​을 사용할 수 있습니다.

대부분의 아마 분류 유형은 여기에 큰 역할을하지 않습니다 사전 기반 기능은 일반적으로 사용에서 관계없이 분류 기술의 매우 정확한 결과로 이어집니다. SVM (SMO), Naive Bayes, ANN 또는 심지어 kNN을 사용할 수 있습니다. 보다 정교한 방법에는 카테고리 계층 구조의 생성이 포함되며, 카테고리 "커피"는 카테고리 "음식"의 일부인 카테고리 "음료"에 포함됩니다.

관련 문제