2011-03-19 4 views
15

POS에 nltk.pos_tag()라는 단어가 태그되어 있으므로 treebank 태그가 주어집니다. 나는이 단어들을 알려진 POS 태그를 사용하여 음표 화하고 싶지만 어떻게 확신 할 수는 없다. 내가 Wordnet lemmatizer보고 있었는데, 나는 lemmatizer에 의해 허용 된 태그 treebank POS 태그를 변환하는 방법을 잘 모르겠습니다. 어떻게이 변환을 간단하게 수행 할 수 있습니까? 아니면 treebank 태그를 사용하는 lemmatizer가 있습니까?POS 태그가있는 단어를 NLTK로 대체 하시겠습니까?

+3

내가 '김 POS' – fizzer

+1

으로이 글을 읽을 몇 가지 힌트는 여기에도 사용할 수 있습니다 http://stackoverflow.com/questions/15586721/wordnet-lemmatization-and-pos-tagging-in-python – Sadik

답변

28

wordnet lemmatizer는 4 가지 부분 (ADJ, ADV, NOUN 및 VERB)만을 인식하며 NOUN 및 VERB 규칙 만 특히 흥미로운 작업을 수행합니다. treebank 태그 세트의 명사 품사는 모두 NN으로 시작하고 동사 태그는 모두 VB로 시작하고 형용사 태그는 JJ로 시작하고 부사 태그는 RB로 시작합니다. 그래서, 다른 레이블의 한 세트에서 변환하는 것은 매우 간단합니다, 뭔가 같은 :

from nltk.corpus import wordnet 

morphy_tag = {'NN':wordnet.NOUN,'JJ':wordnet.ADJ,'VB':wordnet.VERB,'RB':wordnet.ADV}[penn_tag[:2]] 
+0

위성 형용사는 어떨까요? – user1048677

+0

위성 형용사는 일반 형용사와 동일하게 취급됩니다. – rmalouf

+0

어디에서 [penn_tag]를 가져 오나요? Treebank 태그 목록? – Ksofiac

관련 문제