-4

다른 콘텐츠에 레이블이 지정된 다른 키워드가 있다고 가정합니다. 같은 그런 다른 텍스트로 다중 레이블 분류

label          content 
    great, amazing       our company is bla bla 
               bla bla bla...... 

    amazing, horrible,interesting    our company is bla bla 
               bla bla bla...... 

    boring         our company is bla bla 
               bla bla bla...... 

로, 나는 모델을 구축하는 데 사용할 분류 기계 학습 모델을 싶어요.

이런 종류의 멀티 라벨 분류 작업을하고 빌드하는 방법을 가르쳐 줄 수 있습니까?

p.s. scikit-learn 라이브러리를 사용하는 것을 선호합니다.

+0

여기에서 예제를 확인하십시오. http://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification-format – mkaran

답변

0

예,이 질문을 게시하기 전에 읽었습니다. 그러나, 항상 overfitting 것으로 보인다. 이것은 sklearn이 제공 한 예제가 한 문장과 같은 간단한 텍스트를 처리하기 때문입니다. 그러나, 지금 가지고있는 본문은 단지 한 문장보다 많은 수의 일에 대해 이야기하고 있습니다.

사실 나는 kaggle의 예를 읽었습니다. (https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words) 내가 원하는 것 근처에 있지만, 멀티 라벨 분류에 넣으려고하면 쉽게 오버 피팅에 빠지게됩니다.

누구나 내 텍스트 마이닝 질문에 대한 생각을 나눌 수 있습니까?

관련 문제