2014-12-22 2 views
8

파이썬에서 nltk 모듈을 사용하고 있으며 다른 언어에 태그를 지정하는 POS에이 기능을 사용하려고합니다.NLTK 다른 언어 POS 타거야

다양한 언어로 나만의 POS 태거를 훈련시키는 방법에 대한 많은 정보가 있습니다. - 언어별로 잘 구축되고 테스트 된 NLTK POS 태거 데이터베이스가 있습니까? 당신은 다른 corporas을 찾을 수 http://www.nltk.org/nltk_data/

에서 당신은 강력하고 잘 구축 및 테스트 NLTK 코퍼스 찾을 수 있습니다

+0

가능한 중복 [NLTK 코퍼스를 사용하여 스페인어 단어에 태그하기] (http://stackoverflow.com/questions/14732465/nltk-tagging-spanish-words-using-a-corpus) – alvas

답변

4

(피클 모듈을 사용하여 POS 얇은 생철을 수출하는 것은 매우 쉽다) 그러나 이들은

1
최고

내가 아는 바로는 잘 구축되고 테스트 된 POS taggers와 같은 견고한 데이터베이스가 없다는 것입니다. 나는 그것이 좋은 생각이라고 생각한다.

나는 두어 개의 태그 작성자를 직접 시도했다. 대규모 영어 코퍼스를 들어 내가 사용했습니다 : 나는 하나를 사용했습니다 스페인어 http://gmb.let.rug.nl/

가 빠르게 NLTK 트레이너를 확인할 수 있습니다 간단한 얇은 생철을 훈련 NLTK에서 (cess_esp)

from nltk.corpus import cess_esp as cess 

을 포함 :

그것은 단지 NLTK를 사용하여 엄격하지 않은 경우

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

3

, 당신은 우리의 강력하고 언어 독립적 POS 태그 툴킷 RDRPOSTagger을 시도 할 수 있습니다.

(라이센스 : GPLv2에, 프로그래밍 언어 : 파이썬 & 자바)

RDRPOSTagger는 모두 학습 빠른 성능 및 태그 처리를 가져옵니다. 또한 RDRPOSTagger는 최첨단 결과에 비해 매우 경쟁력있는 정확성을 제공합니다.

1811 년 12 월 18 일 업데이트 됨 : 특히 형태가 풍부한 언어에서 향상된 태그 지정 정확도로 버전 1.2를 출시하십시오. this paper에서 성능 속도 및 태깅 정확도를 포함한 실험 결과를 확인하십시오.

RDRPOSTagger는 불가리아어, 체코 어, 네덜란드어, 영어, 프랑스어, 독일어, 힌디어, 이탈리아어, 포르투갈어, 스페인어, 스웨덴어, 태국어 및 베트남어에 대한 사전 교육 된 POS 및 형태 태깅 모델을 지원합니다. RDRPOSTagger는 40 개 언어로 사전 교육 된 Universal POS 태깅 모델도 지원합니다.

+0

다른 사람이 필요로 할 경우, 나는 [파이썬 3에 이식] (https://github.com/jacopofar/RDRPOSTagger-python-3) – Jacopofar