이것은 아주 순진하게 들릴지 모르겠지만 기계 학습 용어로 말할 때, 문서 클러스터링의 기능은 형태소 분석이나 중지 단어로 삭제 된 문서가있는 경우 문서에서 선택한 단어입니다.문서 클러스터링/분류의 기능은 무엇입니까?
나는 LibSvm 라이브러리를 사용하려고하고 있으며 {no_of_instances, no_of_features}의 여러 유형에 대해 다른 접근법이 있다고 말합니다.
no_of_instances가 no_of_features보다 훨씬 낮 으면 마찬가지로 선형 커널이됩니다. 둘 다 큰 경우 선형이 빠릅니다. 그러나 no_of_features가 작 으면 비선형 커널이 더 좋습니다.
내 문서 클러스터링/분류의 경우, 나는 100 개 정도의 문서에 소수의 단어가 2000 개 정도있을 수 있습니다. 그래서 나는 기능이 있다고 생각하는 것에 따라 작은 no_of_instances와 큰 no_of_features 범주에 속합니다.
문서에 tf-idf를 사용하고 싶습니다.
그래서 no_of_features는 tf-idf에서 얻은 벡터의 크기입니까?
tf-idf의 경우 벡터의 크기가됩니까? tf-idf에 대해 –
일 때,'j '번째 문서의 부분 i'th' 특징은'tf (i, j) * idf (i)'일 것이다. 'j '번째 문서 (길이로 정규화)에서 i 번째 단어의 발생 수를 나타내는 대수이고'idf (i)'는 (i 번째 단어가있는 문서로 나눈 문서 수)의 대수입니다. 그러한 특징의 수는 분석 된 단어의 수와 같을 것입니다 (아마도 steemed하고 정지 단어가 없거나 다른 단어로 필터링됩니다 - 지식 기반 - 방식) – lejlot