2012-09-19 6 views
1

IDF는 상수이기 때문에. 한 차원의 모든 값은 상수를 곱합니다.SVM 선형 커널에서 TF-IDF와 TF의 차이점

SVM 선형 커널에서 결과가 달라 집니까?

+0

svm 선형 커널에서 tfidf 무게와 tf 무게의 차이점을 말씀해 주시겠습니까? –

답변

1

처음 질문은 실제로 의미가 없습니다. 1) TF/IDF: features for text representation 2) SVM - Linear Kernel : SVM에 대한 가장 간단한 접근법 (실제로 텍스트 용으로 사용).

TF와 TF/IDF의 차이는 단어의 코퍼스 빈도 사용 여부에 달려 있습니다. TF/IDF는 분류 자와 별도로 훨씬 더 나은 선택입니다.

TF 만 사용하면 단어가 공통적인지 여부는 신경 쓰지 않아도됩니다. 따라서, 예를 들어, 기사는 실제 정보를 제공하지 않더라도 큰 비중을 차지합니다.

TF/IDF에서 단어가 코퍼스에 더 자주 나타날수록 더 작은 가중치를받습니다. 따라서 기사와 같은 일반적인 단어는 작은 가중치를 받지만 희귀 한 단어는 더 많은 정보를 전달한다고 가정하면 더 큰 가중치를받습니다.

N.B. 위의 "기사"는 사전 처리 단계에서 일반적으로 제거해야하는 예제로 사용됩니다.

+1

질문에 답변하지 않았습니다. OP가 의미하는 바는 단어 당 TF의 벡터와 단어 당 TFIDF의 벡터 사이의 차이가 단순히 모든 속성의 선형 스케일링이라는 것입니다. 그런 다음 선형 회귀 또는 선형 SVM과 같은 선형 분류자를 사용하면 크기 조정이 차이를 만들지 않습니다! – ihadanny

-2

TF-IDF는 다중 레이블 분류에 유용하지 않습니다. 최상의 시나리오는 문서 순위 및/또는 검색 엔진에 사용됩니다.

IDF = 1/logDF. log1 = 0; 따라서 특정 클래스에 대한 모든 문서에 단어가있는 경우 시스템 폐기는 중요하지 않습니다.

+0

이것은 실제 답변이 아니라 허용 된 답변에 대한 의견입니다. 의견을 남기고 싶다면 충분한 인원을 확보하십시오. – Syon