나는 매우 근본적인 질문을 가지고있다. 두 세트의 문서가 있습니다. 하나는 교육용이고 다른 하나는 테스트 용입니다. 교육 자료를 사용하여 Logistic 회귀 분류기를 교육하고 싶습니다. 나는 옳은 일을하는지 알고 싶다.벡터 공간 모델에서 문서 표현하기
- 먼저 교육 문서에서 모든 고유 단어 목록을 찾아 어휘라고 부릅니다.
- 어휘의 각 단어에 대해 모든 교육 문서에서 해당 TFIDF를 찾으십시오. 그런 다음 문서는 이러한 TFIDF 점수의 벡터로 표시됩니다.
내 질문 : 1. 테스트 문서를 어떻게 나타낼 수 있습니까? 예를 들어, 테스트 문서 중 하나에 어휘에 포함 된 단어가 없습니다. 이 경우 TFIDF 점수는 해당 문서에 대한 어휘의 모든 단어에 대해 0이됩니다.
- 스파 스 벡터 형식을 사용하는 LIBSVM을 사용하려고합니다. 모든 항목이 벡터 표현으로 0으로 설정된 위의 문서의 경우 어떻게 표현합니까?
그렇다면 훈련 자료에서 결코 발생하지 않는 단어를 가진 테스트 문서가 있으면 내 tfidf 문서 벡터가 모두 0이 될 것입니다. –
문서가 보이지 않는 단어 인 경우에만. –
예. libSVM과 같은 라이브러리를 사용할 때, 그것은 희소 벡터 형식을 따릅니다. 따라서 모든 항목이 0이기 때문에 스파 스 벡터 표현과 같이 비어 있습니다. libSVM에 익숙하다면, 어떻게 처리되는지 알고 계십니까? –