특정 다중 단어 문자열을 단일 단위/토큰으로 표시하는 다소 독창적 인 NER 시스템을 설계하려고합니다.Unconventional 명명 된 엔티티 인식
이 거기에 멋진 NER 도구를 많이 있습니다,하지만 난 그게 거의 불가능 바로 상자 밖으로 뭔가를 사용할 수 있도록 몇 가지 특별한 요구 사항이 있습니다
우선, 엔티티는 할 수 없다 추출 및 인쇄 - 목록에 어떤 방식으로 표시하고 토큰으로 통합해야합니다.
둘째, 분류는 중요하지 않습니다. - 사람/조직/위치는 중요하지 않습니다 (적어도 출력물에서는).
셋째, 이들은 우리가 찾고있는 전형적인 ENAMEX 네임 엔티티가 아닙니다. 우리는 기업과 단체뿐만 아니라 '기후 변화'와 '동성 결혼'과 같은 개념을 원합니다. 나는 몇몇 도구들에서 이러한 태그들을 보았지만 그 모두는 '추출 스타일'이었다.
어떻게 이러한 유형의 기능을 사용할 수 있습니까? 내 자신의 손으로 주석을 추가 한 데이터 세트에서 Stanford tagger를 교육하면 ('기후 변화'라는 독창적 인 문구가 MISC 등으로 분류됩니다) 작업을 수행 할 수 있습니까? 아니면 '괴괴 망측한'엔티티의 후보 목록을 작성하고 정규 NER 시스템을 실행 한 후에 텍스트를 확인하는 것이 더 낫지 않습니까?
감사합니다.
"기후 변화"와 "동성애 결혼"은 기존 NER의 의미에서 엔티티 이름이 아닙니다. 그것들은 공동 배치 또는 고정 된 표현과 더 비슷합니다. 상호 정보를 기반으로하는 일부 알고리즘은이를 수집 할 수 있습니다. –
@larsmans 예 예전과 비슷한 것으로 손짓했습니다. 청크 먼저, 명사구를 찾은 다음, 배치 식 통계를 실행하여 '재미있는'(있을 법하지 않은) 구절을 찾으십시오. 이 후자의 단계는 미세한 튜닝을 필요로하며, 아직 거기에 있지 않습니다. 더 나은 통계가 답이 될 수 있습니다. – winwaed
@winwaed : 앵커 텍스트로 사용되는 기사를 찾기 위해 Wikipedia와 일치하는 문자열을 사용할 수도 있습니다. 그것은 또한 당신에게 문구의 "의미"를줍니다. 나는 최근에 [Meij 's algorithm] (http://edgar.meij.pro/adding-semantics-microblogs/)으로 그렇게 해왔고 아주 잘 작동합니다. –