2016-06-06 5 views
0

어떻게하면 tfidf 행렬을 카테고리와 연관시킬 수 있습니까? 예를 들어 나는 각각 TFIDF를 계산하고 '텍스트'내 입력으로 열을 취함으로써 모든 문장은, 내가 어떻게 그 행을 분류하는 시스템을 훈련 할 수있을 것입니다 일단 아래의 데이터가텍스트 분류 미리 훈련 된 데이터가있는 파이썬

**ID**  **Text**          **Category** 
    1  jake loves me more than john loves me    Romance 
    2  july likes me more than robert loves me    Friendship 
    3  He likes videogames more than baseball    Interest 

을 설정해야 위의 내 범주와 관련된 행렬을 사용하여 테스트 데이터를 다시 사용할 수 있습니까?

위의 열차 데이터 세트를 사용하여 'julie is lovely person'이라는 새 문장을 전달할 때 위 문장을 하나 또는 여러 개의 미리 정의 된 범주로 분류하고 싶습니다.

나는이 문제를 해결하기 위해 내 출발점으로이 링크 Keep TFIDF result for predicting new content using Scikit for Python를 사용했다하지만 난 범주가 이미 텍스트를 벡터화처럼 보이는

답변

1

에 문장에 대한 TFIDF 매트릭스를 매핑하는 방법에 이해할 수 없었다, 즉 이미 scinkit-learns 분류자를 사용할 수 있도록 텍스트를 숫자로 변환했습니다. 이제 다음 단계는 분류자를 훈련시키는 것입니다. this link을 팔로우하세요.

docs_new = ['God is love', 'OpenGL on the GPU is fast'] 
X_new = count_vect.transform(docs_new) 
predicted = clf.predict(X_new) 
+0

네, 이미 :이

from sklearn.feature_extraction.text import CountVectorizer count_vect = CountVectorizer() X_train = count_vect.fit_transform(your_text) 

from sklearn.naive_bayes import MultinomialNB clf = MultinomialNB().fit(X_train, y_train) 

새로운 문서에 예측 기차 분류

벡터화 : 그것은 다음과 같습니다 텍스트를 숫자로 변환하지만 시스템이 어떤 카테고리에 속하는지 어떻게 알 수 있습니까? 나는 숫자로 텍스트를 변형 시켰지만 나는 텍스트의 숫자를 (내 질문 데이터 세트에서 보여 지듯이)하고 싶은 범주에 태그 할 수 없었다. – RData

+0

분류 자 ​​및 예측 단계가 수행하는 작업을 처리합니다. 예측 변수에는 새 텍스트의 카테고리가 있습니다. – elyase

+0

is y_train 내 범주? – RData

관련 문제