2015-01-07 3 views
5

저는 청구서 및 송장 컬렉션이 있으므로 텍스트에 컨텍스트가 없습니다 (이야기를하지 않는다는 의미입니다). 그 청구서에서 사람 이름을 추출하고 싶습니다. OpenNLP를 사용해 보았지만 컨텍스트가 없기 때문에 숙련 된 모델의 품질이 좋지 않습니다. 첫 번째 질문은 다음과 같습니다. 모델에 문맥이없는 사람 이름 만 포함시킬 수 있습니까? 그게 가능하다면 새로운 모델을 만드는 방법에 대한 좋은 기사를 주실 수 있습니까? (제가 읽은 기사의 대부분은 새로운 모델을 구축하기 위해해야하는 단계를 설명하지 않았습니다).구조용 텍스트에서 추출한 사람 이름

데이터베이스 이름에 성 (이름, 성)이 100,000 개 이상 있기 때문에 문맥이 없기 때문에 NER 시스템이 작동하지 않는 경우 (검색 할 수있는 가장 좋은 방법은 무엇입니까?) 그 후보들 (다른 모든 성을 가진 모든 성을 검색하는 것을 의미합니까?)

감사합니다.

답변

2

"컨텍스트"와 관련하여 이전/다음 토큰이 없으므로 전체 문장이 없다는 것을 의미합니다.이 경우 비표준 NER에 직면하게됩니다. 교육이나 평가 목적으로 자신의 코퍼스를 구축해야한다는 것을 알지 못했다면이 특정 문제에 대한 소프트웨어 또는 교육 데이터를 사용할 수 있는지를 알지 못합니다.

실제로 데이터베이스에 실제로있는 지폐 이름의 비율에 따라 이름 데이터베이스가 크게 도움이 될 것입니다. 또한 이름의 문자 레벨 형태에 패턴 (예 : [1]의 패턴 참조)을 의존해야합니다. SVM으로 표준 기계 학습을 사용하여 기능 (데이터베이스, 모폴로지, 기타 청구 정보) 및 솔루션 (주석이 달린 청구서의 실제 이름)이있는 교육 세트를 얻은 후에는이 작업에 익숙하지 않은 경우 매우 간단합니다. 그냥 물어봐).

어떤 다른 제안 :

  • 당신은 대부분의 아마 또한 사용할 수있는 다른 법안의 정보 : 회사 이름, 위치, 세금 언급 등
  • 또한 AA 선택적 방식으로 진행될 수있다 - 모든 청구서해야하는 경우 (정확하게?) 한 사람의 이름을 언급하면, 다른 모든 텍스트 (예 : 금액, 세금 이름, 직책 등)를 제외하거나 법안의 모든 텍스트 중에서 하나만 이름으로 추측해야한다고 전담 한 모델로 가정 할 수 있습니다.

[1]라는 이름의 엔티티 추출을위한 랭킹 알고리즘 : 증폭 및

가 좀 정규 표현식으로 시작 했죠
2

, 그때 아마도 사전을 기반으로 그 기능 보강 투표 퍼셉트론 (마이클 콜린스, 2002) 접근 (즉, 큰 이름 목록).

아무리해도 완벽하지 않으므로 유의하시기 바랍니다.