2014-05-16 2 views
7

처음 엔 명명 된 엔티티 인식을 시도하고 있습니다. 영어 이름을 선택할 기능을 찾고 있습니다. 나는 coursera nlp course (3 번째 주)과 nltk book에 설명 된 방법을 사용하고 있습니다. 다른 말로하면 : 나는 특징을 정의하고, 단어의 특징을 확인한 다음 분류 된 데이터를 훈련시키는 분류기를 통해 단어/기능을 실행합니다.NLP 실무자는 어떤 기능을 사용하여 영어 이름을 선택합니까?

영어 이름을 선택하는 데 사용되는 기능은 무엇입니까?

두 개의 대문자 단어 나 대문자 단어를 찾은 다음 이니셜 다음에 대문자 단어를 찾습니다. (예 : John Smith 또는 James P. Smith).

그러나 NER에는 어떤 다른 기능이 사용됩니까?

답변

7

몇 가지 일반적인 특징 :

  • 는 기호 나 숫자를 (이름은 일반적으로하지 않습니다)
  • 사람 접두사가 포함되어 케이싱 일반적인 이름 (요, 아담 등)
  • 에 대한

    • 단어 목록 (Mr., Mrs. 등)
    • 사람 후위 (주니어, 미스터 등)
    • 단일 문자 약어 (즉, (J.) Smith).
    • 주변 단어 분석 (일부 단어는 이름 근처에 나타날 확률이 높음).
    • 명명 된 엔티티가 이미 인식 (종종 다른 부분에서 매우 어려운 상황에 따라 신체의 일부 지역에서 NE를 쉽게 식별 할 수 있지만입니다. 이전에 확인 된 경우,이 NER 대한 좋은 힌트)

    함께 일하는 언어에 따라 더 많은 언어 별 기능이있을 수 있습니다. 솔직히 말해서 간단한 Google 검색어로 풍부한 정보를 얻을 수 있습니다. 왜 그곳으로 향하지 않았는지 잘 모르겠습니다. 그러나 일부 출발점 :

  • 4

    나는 기계 학습을 이용하여 학교에 다시 비슷한 일을했다. 나는 당신이 감독 알고리즘을 사용한다고 가정하고 단어 하나 하나를 독립적으로 분류 할 것입니다. 이 경우 내가 언급 한 단어 자체에 대한 몇 가지 기능을 선택합니다 (단어가 약어 인 경우 대문자로 시작하는 단어 인 경우)하지만 이전 단어 나 다음 단어와 같은 몇 가지 기능을 추가합니다. 대문자로 시작하거나, 약어 일 경우. 이 방법으로 컨텍스트를 추가하고 기본 독립 가정과 관련된 문제를 극복 할 수 있습니다.

    원한다면 here을 참조하십시오. 기계 학습 섹션에서 더 많은 정보와 예제를 찾을 수 있습니다 (문제는 약간 다르지만 방법은 비슷해야합니다).

    어떤 기능을 선택하든 관련성을 평가하고 유용한 기능으로 축소하여 피팅을 피하는 것이 중요합니다.평가할 때 사용할 수있는 방법 중 하나는 gain ratio이지만 더 많은 정보가 있습니다. Here 기능 추출에 대한 몇 가지 기본 정보를 찾을 수 있습니다.

    희망이 있습니다.

    관련 문제