2013-08-12 1 views
0

이것은 아주 순진하게 들릴지 모르겠지만 기계 학습 용어로 말할 때, 문서 클러스터링의 기능은 형태소 분석이나 중지 단어로 삭제 된 문서가있는 경우 문서에서 선택한 단어입니다.문서 클러스터링/분류의 기능은 무엇입니까?

나는 LibSvm 라이브러리를 사용하려고하고 있으며 {no_of_instances, no_of_features}의 여러 유형에 대해 다른 접근법이 있다고 말합니다.

no_of_instances가 no_of_features보다 훨씬 낮 으면 마찬가지로 선형 커널이됩니다. 둘 다 큰 경우 선형이 빠릅니다. 그러나 no_of_features가 작 으면 비선형 커널이 더 좋습니다.

내 문서 클러스터링/분류의 경우, 나는 100 개 정도의 문서에 소수의 단어가 2000 개 정도있을 수 있습니다. 그래서 나는 기능이 있다고 생각하는 것에 따라 작은 no_of_instances와 큰 no_of_features 범주에 속합니다.

문서에 tf-idf를 사용하고 싶습니다.

그래서 no_of_features는 tf-idf에서 얻은 벡터의 크기입니까?

답변

1

여기서 말하는 것은 중 하나 인 사실 입니다. 실제로는 문서의 기능을 정의하는 가장 간단한 방법입니다. 기계 학습 용어 기능은 입력 공간 (이 특정 예에서는 - 문서 공간에서)을 특정 기계 학습 모델에 적합한 일부 추상 공간으로 맵핑하는 것입니다. 대부분의 ML 모델 (신경망, 지원 벡터 머신 등)은 수치 벡터에서 작동하므로 문서에서 문서의 (일정한 크기의) 벡터로 매핑해야합니다. 이것은 때로는 owrds 백의 표현을 선택하는 이유입니다. 여기서 우리는 단어 '카운트 벡터를 문서 표현으로 사용합니다. 이 제한은 특정 모델을 사용하여 극복 할 수 있습니다. 예를 들어 Naive Bayes (또는 SVM 용 사용자 정의 커널)는 특정 개체에서 작동 할 수있는 숫자가 아닌 데이터로 작업 할 수있게합니다. perticular 조건부 확률을 정의 할 수있는 한 - 여기에서 가장 기본적인 접근법은 특정 단어를 포함하는 문서를 "피처"로 취급하는 것입니다. 일반적으로 이것이 유일한 가능성은 아니며 통계 기능, 의미 론적 기능 (워드 넷과 같은 일부 온톨로지 기반)을 사용하는 수십 가지 방법이 있습니다.

총계는 다음 중 하나 일뿐입니다. 기계 학습 모델. 기본 개념을 이해하는 것이 좋지만 처음에는 "기능 정의"가 아닙니다.

편집

no_of_features는 문서 '표현에 사용하는 벡터의 크기, 그래서 당신은 TF-IDF를 사용하는 경우, vecor을 결과의 다음 크기는 no_of_featuers이다.

+0

tf-idf의 경우 벡터의 크기가됩니까? tf-idf에 대해 –

+1

일 때,'j '번째 문서의 부분 i'th' 특징은'tf (i, j) * idf (i)'일 것이다. 'j '번째 문서 (길이로 정규화)에서 i 번째 단어의 발생 수를 나타내는 대수이고'idf (i)'는 (i 번째 단어가있는 문서로 나눈 문서 수)의 대수입니다. 그러한 특징의 수는 분석 된 단어의 수와 같을 것입니다 (아마도 steemed하고 정지 단어가 없거나 다른 단어로 필터링됩니다 - 지식 기반 - 방식) – lejlot

관련 문제