2012-06-20 2 views
2

특정 다중 단어 문자열을 단일 단위/토큰으로 표시하는 다소 독창적 인 NER 시스템을 설계하려고합니다.Unconventional 명명 된 엔티티 인식

이 거기에 멋진 NER 도구를 많이 있습니다,하지만 난 그게 거의 불가능 바로 상자 밖으로 뭔가를 사용할 수 있도록 몇 가지 특별한 요구 사항이 있습니다

우선, 엔티티는 할 수 없다 추출 및 인쇄 - 목록에 어떤 방식으로 표시하고 토큰으로 통합해야합니다.

둘째, 분류는 중요하지 않습니다. - 사람/조직/위치는 중요하지 않습니다 (적어도 출력물에서는).

셋째, 이들은 우리가 찾고있는 전형적인 ENAMEX 네임 엔티티가 아닙니다. 우리는 기업과 단체뿐만 아니라 '기후 변화'와 '동성 결혼'과 같은 개념을 원합니다. 나는 몇몇 도구들에서 이러한 태그들을 보았지만 그 모두는 '추출 스타일'이었다.

어떻게 이러한 유형의 기능을 사용할 수 있습니까? 내 자신의 손으로 주석을 추가 한 데이터 세트에서 Stanford tagger를 교육하면 ('기후 변화'라는 독창적 인 문구가 MISC 등으로 분류됩니다) 작업을 수행 할 수 있습니까? 아니면 '괴괴 망측한'엔티티의 후보 목록을 작성하고 정규 NER 시스템을 실행 한 후에 텍스트를 확인하는 것이 더 낫지 않습니까?

감사합니다.

+1

"기후 변화"와 "동성애 결혼"은 기존 NER의 의미에서 엔티티 이름이 아닙니다. 그것들은 공동 배치 또는 고정 된 표현과 더 비슷합니다. 상호 정보를 기반으로하는 일부 알고리즘은이를 수집 할 수 있습니다. –

+0

@larsmans 예 예전과 비슷한 것으로 손짓했습니다. 청크 먼저, 명사구를 찾은 다음, 배치 식 통계를 실행하여 '재미있는'(있을 법하지 않은) 구절을 찾으십시오. 이 후자의 단계는 미세한 튜닝을 필요로하며, 아직 거기에 있지 않습니다. 더 나은 통계가 답이 될 수 있습니다. – winwaed

+1

@winwaed : 앵커 텍스트로 사용되는 기사를 찾기 위해 Wikipedia와 일치하는 문자열을 사용할 수도 있습니다. 그것은 또한 당신에게 문구의 "의미"를줍니다. 나는 최근에 [Meij 's algorithm] (http://edgar.meij.pro/adding-semantics-microblogs/)으로 그렇게 해왔고 아주 잘 작동합니다. –

답변

3

Stanford NER와 같은 명명 된 엔티티 태그러의 기본 CRF 모델은 실제로 명명 된 엔티티가 아닌 모든 것을 인식하는 데 실제로 사용될 수 있습니다. 분명히 다양한 용어 문구를 골라내는 데 꽤 성공적으로 사용 된 사람들이 있습니다. 이 소프트웨어는 문맥에서 토큰 시퀀스를 마크 업할 수 있습니다.

그러나 NP 청킹 및 배열 통계와 같은 것이 사용되는 "감독되지 않은"방식으로 또는 직접 관리되는 간단한 CRF의 방식으로 접근할지 여부에 대한 선택이 있습니다. 당신이 나가고 싶은 문구 종류의 많은 주석 데이터를 제공합니다.

+0

정말 고마워! 내 작업이 도메인 특유의 것 (선거 블로그 및 뉴스 기사)이기 때문에 '괴괴 망측 한'엔티티로만 큰 데이터 세트를 손쉽게 주석 처리 한 다음 해당 엔티티에 대한 분류자를 훈련시키는 것이 더 쉽다는 것을 알았습니다. 처음에는 기본 태그 지정자를 통해 텍스트를 실행 한 다음 특수하게 분류 된 분류자를 통해 텍스트를 실행 한 결과 훌륭한 결과를 얻었습니다. – jjdubs

+0

jjdubs - nltk 또는 스탠포드를 사용 했습니까? 나는 비슷한 무엇인가로 달리고 있고, 조금 더 상세한 것을 좋아할 것이다. – Wizzard

+0

@jjdubs 나는 또한 당신이 이것을 어떻게 달성했는지에 관해 듣고 싶습니다! – adaam

관련 문제