2014-01-26 4 views
4

NER 및 POS 태깅을 이해하기 위해 Stanford CoreNLP를 확인했습니다. 하지만 엔티티 용 맞춤 태그를 만들고 싶은데 <title>Nights</title>, <genre>Jazz</genre>, <year>1992</year> 어떻게 할 수 있습니까? 이 경우 CoreNLP가 유용합니까?맞춤 NER 및 POS 태깅

+0

예, CoreNLP는 맞춤 '태그'를 사용할 수 있습니다. '연도'는 이미 날짜로 표시되어야합니다. 가제트 기능을 사용하면 쉽게 할 수 있습니다. 여러 번 문서를주의 깊게 읽어야합니다. –

답변

4

CoreNLP는 PERSON, LOCATION, ORGANIZATION, MISC, DATE, TIME, MONEY, NUMBER 등 언급 된 유형으로 제한됩니다. 아니, 당신은 그냥 "직관적"이 실제로

을 :) 할 수있는 가정하여 다른 엔티티를 인식 할 수 없습니다, 당신은 선택해야 어느 것 :

  1. 다른 NER 시스템을 찾기 그 유형에 해당하는 태그
  2. 지식 기반/감독되지 않은 접근법을 사용하여이 태깅 작업을 처리합니다.
  3. 인식하려는 유형이 포함 된 추가 자원 (코퍼)을 검색하고 감독 된 NER 시스템 (CoreNLP 또는 기타)을 다시 훈련하십시오.
  4. 자신의 자원을 빌드하고 주석을 달 수 있습니다. 주석 체계, 규칙 등 - 작업의 꽤 흥미로운 부분!

실제로 기존 시스템이 사용자의 요구를 충족시키지 못하면 약간의 노력이 필요합니다. 감독되지 않은 접근법은 시스템을 부트 스트래핑하는 데 도움이 될 수 있으므로 전용 코퍼스를 찾고/주석을 달아야하는지 확인해야합니다. 후자의 경우, 결과 데이터가 보이지 않는 데이터에 대해 얼마나 많은 양을 수행하는지 평가할 수 있도록 train/dev/test 파트로 데이터를 분리하는 것이 좋습니다.