2017-03-23 1 views
-1

'a/an'과 'the'기사 사용을 정정하는 프로그램을 작성 중입니다. 나는 복수형의 경우를 발견 할 수 있었다. (해당 명사가 복수형 일 때 기사는 항상 'the'이다.)명확한 대 부정한 기사 사용법 교정기

나는 단수 명사에 대해이 문제를 해결하는 방법에 대해 잘 모르겠습니다. 문맥이 없으면 "사과"와 "사과"가 모두 정확합니다. 그런 경우 어떻게 접근할까요?

답변

1

나는 이것이 100 % 정확도를 얻을 수있을 것이라고는 생각하지 않지만, 가장 중요한 단서 중 하나가 이전 언급이라고 생각합니다. 이전에 언급 된 사과가 없다면 '사과'라고 말하면 조금 이상합니다.

    :

    매우 저렴 (그리고 덜 정확) 접근 가능성과 같은 많은 다른 기능과 함께, 그대로 앞의 맥락에서 토큰 '사과'에 대한 확인 기능으로 것을 사용하는 것입니다 의존성 파싱 통해

  • 문법적 기능 (한정 될 가능성 문법적 주체)
  • 어구 길이 (한정이 짧다 적은 형용사 언급)
  • 등 텍스트
  • 위치 (텍스트 진행 명확성은 확률이된다) .

더 나은 방법이지만 "the"를 삽입 한 다음 이전 언급을 찾으려고 시도 할 때 coreference resolution 구성 요소를 사용하는 것이 좋습니다. 자동 코퍼 런스 해결 방법이 완벽하지는 않지만 NLP를 사용하여 이전에 언급했는지 확인하는 가장 좋은 방법이며 대부분의 시스템은 간단한 문자열 조회에서 누락 될 수있는 "John has Malaria ... the disease"과 같이 중요하지 않은 경우도 해결하려고 시도합니다. 잘 알려지지 않은 비 공동 언급 : a red apple ... != a green apple.

마지막으로 명칭 ("올림픽 게임"), 제네릭 ("개미"), 문맥 상 추측 할만한 단어 ("패스" 소금 ")과 고유하게 식별 가능한 태양 ("태양 "). 이들 모두는 훈련 자료에서 배울 수 있지만, 아마도 별도의 분류 기준이 필요할 것입니다.

희망이 도움이됩니다.