답변
처음 질문은 실제로 의미가 없습니다. 1) TF/IDF: features for text representation 2) SVM - Linear Kernel : SVM에 대한 가장 간단한 접근법 (실제로 텍스트 용으로 사용).
TF와 TF/IDF의 차이는 단어의 코퍼스 빈도 사용 여부에 달려 있습니다. TF/IDF는 분류 자와 별도로 훨씬 더 나은 선택입니다.
TF 만 사용하면 단어가 공통적인지 여부는 신경 쓰지 않아도됩니다. 따라서, 예를 들어, 기사는 실제 정보를 제공하지 않더라도 큰 비중을 차지합니다.
TF/IDF에서 단어가 코퍼스에 더 자주 나타날수록 더 작은 가중치를받습니다. 따라서 기사와 같은 일반적인 단어는 작은 가중치를 받지만 희귀 한 단어는 더 많은 정보를 전달한다고 가정하면 더 큰 가중치를받습니다.
N.B. 위의 "기사"는 사전 처리 단계에서 일반적으로 제거해야하는 예제로 사용됩니다.
질문에 답변하지 않았습니다. OP가 의미하는 바는 단어 당 TF의 벡터와 단어 당 TFIDF의 벡터 사이의 차이가 단순히 모든 속성의 선형 스케일링이라는 것입니다. 그런 다음 선형 회귀 또는 선형 SVM과 같은 선형 분류자를 사용하면 크기 조정이 차이를 만들지 않습니다! – ihadanny
TF-IDF는 다중 레이블 분류에 유용하지 않습니다. 최상의 시나리오는 문서 순위 및/또는 검색 엔진에 사용됩니다.
IDF = 1/logDF. log1 = 0; 따라서 특정 클래스에 대한 모든 문서에 단어가있는 경우 시스템 폐기는 중요하지 않습니다.
이것은 실제 답변이 아니라 허용 된 답변에 대한 의견입니다. 의견을 남기고 싶다면 충분한 인원을 확보하십시오. – Syon
- 1. 카이 제곱 커널 vs rbf 커널이있는 선형 svm
- 2. 선형 SVM/로지스틱 회귀 대수 함수에 어파인 항 추가
- 3. svm 분류
- 4. Emgu SVM 분류 자, poly 및 RBF 커널에서 잘못 예측 됨
- 5. Python에서 가장 빠른 SVM 구현
- 6. SVD와 SVM의 차이점
- 7. OpenCV + HOG + SVM : SVM 단일 기능 벡터에 도움이 필요합니다.
- 8. 회귀 분석을위한 .NET SVM
- 9. SVM 예측 방법
- 10. ANN 및 SVM 분류
- 11. 일반 SVM 구현
- 12. 자릿수 인식을위한 SVM
- 13. 3 차원의 SVM 플롯
- 14. R의 SVM 기능
- 15. MATLAB의 SVM 시각화
- 16. SVM 교육 성능
- 17. 유전자 알고리즘 SVM 이후
- 18. 바이너리 형식으로 출력하기위한 Matlab SVM
- 19. SVM 및 유효하지 않은 범주
- 20. MATLAB에서 one-vs-one SVM
- 21. Weka에서 실행할 SVM 버전은 무엇입니까?
- 22. Android에서 사용할 SVM 라이브러리는 무엇입니까?
- 23. MATLAB에서 SVM 교육을 시작하는 방법
- 24. SVM 분류 그래프 플로팅 오류
- 25. R-Kernlab SVM 문제 예측
- 26. 웹 응용 프로그램 용 SVM
- 27. OpenCV 및 Latent SVM Detector
- 28. e1071 R 패키지의 SVM 방정식?
- 29. 리눅스 커널에서 stdlib.h 대안?
- 30. Android 커널에서 커널 모듈로드
svm 선형 커널에서 tfidf 무게와 tf 무게의 차이점을 말씀해 주시겠습니까? –