2016-10-25 3 views
0

나는 텍스트 분류를 위해 단어의 가방을 사용하고 있습니다. 결과가 충분하지 않아 테스트 세트 정확도가 70 % 미만입니다.단어의 가방에 pos 태그를 사용하십시오.

제가 생각하는 것 중 하나는 단어의 기능을 구별하기 위해 POS 태깅을 사용하는 것입니다. 어떻게해야 할 것인가?

love_noun 

하고 동사 사용의 경우 :

love_verb 
가 명사의 사용으로 사용되는 경우

나는, "사랑"예를 들어, 단어에 추가에 단어를 태그를 생각하고 있어요

답변

1

수백 가지 카테고리가있는 경우 테스트 세트 정확도가 70 %에 미치지 않습니다. 정확성 대신 전체적인 정밀도와 리콜을 측정하고자 할 수 있습니다.

당신이 제안한 것은 좋은 것으로, 이는 기능 연결을 추가 기능으로 추가하는 방법입니다. 다음은 몇 가지 제안 사항입니다.

원래 기능을 유지하십시오. 다시 말해 lovelove_noun 또는 love_verb으로 대체하지 마세요.

love, love_noun (or) 
love, love_verb 

당신은 몇 가지 샘플 코드가 필요한 경우, 당신은 nltk 파이썬 패키지에서 시작할 수 있습니다 대신 love에서 오는 두 가지 기능을 가지고 있습니다.

>>> from nltk import pos_tag, word_tokenize 
>>> pos_tag(word_tokenize("Love is a lovely thing")) 
[('Love', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('lovely', 'JJ'), ('thing', 'NN')] 

어쩌면 2 그램을 추가하는 시작, N-g을 사용하는 것이 좋습니다. 예를 들어, "in"및 "stock"이있을 수 있으며 "in"은 중지 단어이기 때문에 그냥 제거 할 수 있습니다. 2 그램을 고려하면

in-stock 

"주식"과 다른 의미를 갖게됩니다. 예를 들어 "쇼핑"과 "금융"을 구별하는 것과 같은 특정 경우에는 많은 도움이 될 수 있습니다.

관련 문제