수백 가지 카테고리가있는 경우 테스트 세트 정확도가 70 %에 미치지 않습니다. 정확성 대신 전체적인 정밀도와 리콜을 측정하고자 할 수 있습니다.
당신이 제안한 것은 좋은 것으로, 이는 기능 연결을 추가 기능으로 추가하는 방법입니다. 다음은 몇 가지 제안 사항입니다.
원래 기능을 유지하십시오. 다시 말해 love
을 love_noun
또는 love_verb
으로 대체하지 마세요.
love, love_noun (or)
love, love_verb
당신은 몇 가지 샘플 코드가 필요한 경우, 당신은 nltk
파이썬 패키지에서 시작할 수 있습니다 대신 love
에서 오는 두 가지 기능을 가지고 있습니다.
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("Love is a lovely thing"))
[('Love', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('lovely', 'JJ'), ('thing', 'NN')]
어쩌면 2 그램을 추가하는 시작, N-g을 사용하는 것이 좋습니다. 예를 들어, "in"및 "stock"이있을 수 있으며 "in"은 중지 단어이기 때문에 그냥 제거 할 수 있습니다. 2 그램을 고려하면
in-stock
"주식"과 다른 의미를 갖게됩니다. 예를 들어 "쇼핑"과 "금융"을 구별하는 것과 같은 특정 경우에는 많은 도움이 될 수 있습니다.