2014-02-16 6 views
2

지원 벡터 머신을 사용하여 구문을 분류하고 있습니다. SVM을 사용하기 전에 필자는 구문 - 벡터에 대해 일종의 정규화를 수행해야 함을 알고 있습니다. 한 가지 인기있는 방법은 TF-IDF입니다.SVM을 사용할 때 TF-IDF가 필요합니까?

TF-IDF 점수가 가장 높은 용어는 종종 문서의 주제를 가장 잘 나타내는 용어입니다.

그러나 SVM이 정확히 어떤 역할을합니까? 문서의 특징을 가장 잘 나타내는 용어에 가장 높은 가중치를 부여합니까?

답변

2

(AN SVM 분류기에 의해 할당 됨) 기간의 중량 :-) 미리

감사 또는 특정 클래스에 해당 용어의 관련성에 비례하지 않을 수있다. 이것은 사용 된 정규화뿐만 아니라 분류 자의 커널에 달려 있습니다. SVM은 이 아니며은 단일 문서를 가장 잘 나타내는 용어에 가중치를 할당합니다.

용어 빈도 (tf)와 역 문서 빈도 (idf)는 문서 벡터의 용어 값을 인코딩하는 데 사용됩니다. 이것은 SVM 분류 자와 독립적입니다.

관련 문제