2017-03-09 2 views
5

conll2002 형식의 주석 처리 된 자료, 즉 토큰, pos-tag 및 IOB 태그 뒤에 엔터티 태그가 오는 탭으로 구분 된 파일이 있습니다. 예 :NLTK에서 사용자 지정 자료를 사용하여 NLTK를 교육하십시오.

존 NNP B-PERSON

내가 NLTK에서 포르투갈어 NER 모델, 바람직하게는 MaxEnt 모델을 훈련 할

. 내가 수행 스탠포드 NER 스탠드 포드를 이미 사용할 수 있었기 때문에 NLTK에서 "내장"스탠포드 NER를 사용하려고하지 않습니다. Stanford NER와 비교하여 MaxEnt 모델을 사용하고 싶습니다.

나는 NLTK-trainer을 찾았지만 사용할 수 없었습니다.

어떻게하면됩니까?

답변

0

nltk book의 6과 7 장은 IOB로 인코딩 된 코퍼스에서 "청크"를 학습하는 방법을 설명합니다. 7 장의 예제는 NP 덩어리를 사용하지만 우발적 인 일입니다. 명명 된 엔티티 인식에 유용한 기능을 결정해야합니다. 6 장에서는 분류 자의 기능을 선택하는 기본 사항을 다룹니다. 마지막으로, nltk 자신의 named entity chunker에서 사용하는 기능의 소스를 살펴보십시오. 그들은 아마도 포르투갈에서도 꽤 잘할 것입니다. 형태소 분석이나 다른 포르투갈어 기능을 추가 할 수 있습니다.

+0

고마워, 결국은 알아 냈어. 제 [github 저장소] (https://github.com/arop/ner-re-pt/wiki/NLTK)에서 자세한 정보를 확인하십시오. – arop

관련 문제