2011-02-22 4 views
4

나는 NLTK를 사용하여 파이썬에서 명명 된 엔티티 인식을 시도합니다. 기술 목록을 추출하고 싶습니다. 본인은 기술 목록을 가지고 있으며 요청시 검색하고 기술에 태그를 지정하려고합니다. NLTK에 사람, 위치 등의 미리 정의 된 태그에 대한 NER 태그가 있음을 알았습니다. 파이썬에서 외부 gazetter tagger를 사용할 수 있습니까? 단어를 검색하는 것보다 정교한 방법 (여러 단어로 된 용어가있을 수 있음)에 대한 아이디어가 있습니까?파이썬을 사용하는 개인 Gazetter에서 명명 된 엔티티 인식

덕분에, 아사 프

답변

1

나는 충분히 최근 NLTK를 사용하지 않은,하지만 당신은 당신이 기술을 알고 단어가 있다면, 당신은 NER-에게 단순한 텍스트 검색을 수행 할 필요가 없습니다.

아마도 Lucene 또는 다른 검색 라이브러리를 사용하여 텍스트를 찾은 다음 주석을 달 수 있습니까? 많은 작업이지만 괜찮은 데이터가 많이있는 경우 작업하고 있습니다. 또는 느린 속도이지만 적은 양의 데이터를 처리 할 수있는 정규식 검색을 해킹 할 수 있으며 구현하기가 훨씬 쉽습니다.

1

RegexpTagger을 보시고 결국 RegexpParser을 보시라. 나는 그것이 정확히 당신이 찾고있는 것이라고 생각한다.

자신 만의 POS 태그를 만들 수 있습니다. 기술을 태그에 매핑 한 다음 쉽게 문법을 정의 할 수 있습니다.

타거 용 샘플 코드는 in this pdf입니다.

관련 문제