2011-11-24 1 views
0

불행히도, 모든 대문자로 주어진 텍스트로 작업하고 있습니다. 기본 nltk.pos_tag 함수는이 텍스트에 대해 아주 좋은 작업을 수행하지 않습니다 (모든 것이 고유 명사라고 생각합니다).모든 대문자로 된 텍스트에서 pos_tag가 실패합니다

이 문제를 해결하는 가장 좋은 방법은 무엇입니까?

답변

2

POS 태그 지정 전에 텍스트에 truecasing을 적용하는 것이 가장 좋습니다.

너가 너무 많이 쓰면 x을 으로 변환하여 x.lower()을 사용하여 적절한 고유 명사 태그 만 얻는 문제를 피할 수 있습니다 (너무 적은 고유 명사가있는 혼동이있을 수 있음). 태그).

태그가있는 코퍼스를 이전에 lower으로 변형하여 POS-Tagger를 교육 할 수 있지만 최상의 결과를 얻으려면 트루 캐싱을 원할 수 있습니다.

+0

소문자로 변환 된 코퍼스에 새로운 태거가 조금 더 잘 작동했지만 여전히 원하는 결과를 제공하지 못했습니다. 결국 (나는 이것을 엄격하게 테스트하지는 않았지만) 결국 소용돌이, 대문자 또는 대문자로 단어를 태그하는 태그가있는 사람을 훈련시키는 것이 었습니다. – Bradley

관련 문제