2011-01-12 3 views
1

목표 : 아포스트로피를 올바르게 구성된 단어로 변환 할 수 있어야합니다. 적어도 아포스트로피가있는 가장 일반적인 단어의 경우. 이렇게하려면 이상적인 단어 목록과 묵시적 조합 (예 : '하지 않음', '하지 않음')을 원합니다.어포 스트로피가 올바른 텍스트로 변환 되었습니까?

문제점 자연어 처리를 기반으로 검색 알고리즘을 만들고 있지만 사용자가 아포스트로피를 사용하여 콘텐츠 (또는 검색)를 만들면 문제가 발생합니다. 우리가 단순히 아포스트로피를 제거한다면 공식적으로 영어 단어가 아니며 NLP 시스템에 의해 번역 될 수없는 (아닐지라도 -하지 마라).

이상적인 솔루션은 이러한 항목을 변환해야하는 항목과 일대일로 매핑하는 것이지만 이러한 목록을 인식하지 못합니다.

알고 계시고 내가 어디에서 찾을 수 있는지 알려 주시기 바랍니다.

들으

+0

호기심에서 벗어나 NLP 시스템 사전에 수축을 추가하지 않는 이유는 무엇입니까? –

답변

3

이 꽤 좋은 목록과 같습니다 http://www.textfixer.com/resources/english-contractions-list.php

이 시스템을 만들고 싶어 얼마나 좋은에 따라 달라집니다. "가는"것이 "가고", "좋은 것"은 ... 힘든 것임을 이해할 것입니까? "~해야"("~해야", "~해야합니다") 또는 "~을 얻었습니다 (~가 있습니다")를 의미 할 수 있습니다.

오, 컴퓨터를 가르치 려 할 때 우리가 배우는 것들.

관련 문제