어떻게하면 tfidf 행렬을 카테고리와 연관시킬 수 있습니까? 예를 들어 나는 각각 TFIDF를 계산하고 '텍스트'내 입력으로 열을 취함으로써 모든 문장은, 내가 어떻게 그 행을 분류하는 시스템을 훈련 할 수있을 것입니다 일단 아래의 데이터가텍스트 분류 미리 훈련 된 데이터가있는 파이썬
**ID** **Text** **Category**
1 jake loves me more than john loves me Romance
2 july likes me more than robert loves me Friendship
3 He likes videogames more than baseball Interest
을 설정해야 위의 내 범주와 관련된 행렬을 사용하여 테스트 데이터를 다시 사용할 수 있습니까?
위의 열차 데이터 세트를 사용하여 'julie is lovely person'이라는 새 문장을 전달할 때 위 문장을 하나 또는 여러 개의 미리 정의 된 범주로 분류하고 싶습니다.
나는이 문제를 해결하기 위해 내 출발점으로이 링크 Keep TFIDF result for predicting new content using Scikit for Python를 사용했다하지만 난 범주가 이미 텍스트를 벡터화처럼 보이는
네, 이미 :이
새로운 문서에 예측 기차 분류
벡터화 : 그것은 다음과 같습니다 텍스트를 숫자로 변환하지만 시스템이 어떤 카테고리에 속하는지 어떻게 알 수 있습니까? 나는 숫자로 텍스트를 변형 시켰지만 나는 텍스트의 숫자를 (내 질문 데이터 세트에서 보여 지듯이)하고 싶은 범주에 태그 할 수 없었다. – RData
분류 자 및 예측 단계가 수행하는 작업을 처리합니다. 예측 변수에는 새 텍스트의 카테고리가 있습니다. – elyase
is y_train 내 범주? – RData