2012-12-21 1 views
0

나는 매우 근본적인 질문을 가지고있다. 두 세트의 문서가 있습니다. 하나는 교육용이고 다른 하나는 테스트 용입니다. 교육 자료를 사용하여 Logistic 회귀 분류기를 교육하고 싶습니다. 나는 옳은 일을하는지 알고 싶다.벡터 공간 모델에서 문서 표현하기

  1. 먼저 교육 문서에서 모든 고유 단어 목록을 찾아 어휘라고 부릅니다.
  2. 어휘의 각 단어에 대해 모든 교육 문서에서 해당 TFIDF를 찾으십시오. 그런 다음 문서는 이러한 TFIDF 점수의 벡터로 표시됩니다.

내 질문 : 1. 테스트 문서를 어떻게 나타낼 수 있습니까? 예를 들어, 테스트 문서 중 하나에 어휘에 포함 된 단어가 없습니다. 이 경우 TFIDF 점수는 해당 문서에 대한 어휘의 모든 단어에 대해 0이됩니다.

  1. 스파 스 벡터 형식을 사용하는 LIBSVM을 사용하려고합니다. 모든 항목이 벡터 표현으로 0으로 설정된 위의 문서의 경우 어떻게 표현합니까?

답변

2

보이지 않는 문서에서 TF IDF 변환을 수행하려면 교육 자료에 대한 충분한 정보를 저장해야합니다. 즉, 교육 자료에있는 용어의 문서 빈도가 필요합니다. 테스트 문서에서 보이지 않는 단어는 무시해도됩니다. 당신의 svm은 어쨌든 그들을 위해 무게를 배울 수 없습니다. 훈련과 테스트 배포가 유사하다면 보이지 않는 용어가 테스트 코퍼스에서 거의 나타나지 않아야합니다. 따라서 몇 가지 용어가 삭제 된 경우에도 의사를 분류 할 용어가 충분합니다.

+0

그렇다면 훈련 자료에서 결코 발생하지 않는 단어를 가진 테스트 문서가 있으면 내 tfidf 문서 벡터가 모두 0이 될 것입니다. –

+0

문서가 보이지 않는 단어 인 경우에만. –

+0

예. libSVM과 같은 라이브러리를 사용할 때, 그것은 희소 벡터 형식을 따릅니다. 따라서 모든 항목이 0이기 때문에 스파 스 벡터 표현과 같이 비어 있습니다. libSVM에 익숙하다면, 어떻게 처리되는지 알고 계십니까? –