"Spelling correction as an iterative process that exploits the collective knowledge of web users"에 설명 된 방법을 구현하여 검색 엔진 검색어에 대한 맞춤법 교정기를 구축하고 있습니다.English 검색어 수정 사전에 대한 답변
높은 수준의 접근 방식은 다음과 같습니다. 주어진 쿼리에 대해 각 unigram 및 bigram의 가능한 수정 후보 (특정 편집 거리 내의 쿼리 로그에있는 단어)를 작성한 다음 수정 된 비터 비 검색을 수행하여 찾습니다. bigram 주파수를받는 후보자의 가장 가능성이 높은 순서. 순서가 최대 확률이 될 때까지이 과정을 반복하십시오.
비터 비 검색을 수정하면 두 개의 인접 단어가 둘 다 신뢰할 수있는 어휘집에서 발견되면 최대 하나까지 수정할 수 있습니다. 이는 특히 빈도가 높은 단어에 대한 맞춤법이 잘못된 단일 단어 검색어의 수정을 피하기 위해 특히 중요합니다.
제 질문은 그러한 어휘집을 어디에서 찾을 수 있는지입니다. 영어로되어 있어야하며 검색어 및 일반 영어 단어 및 흔치 않은 영어 단어에 표시 될 고유 명사 (성/이름, 장소, 브랜드 이름 등)를 포함해야합니다. 올바른 방향으로 밀기 만해도 유용 할 것입니다.
또한이 책을 읽고 누군가가이 문서에서 제공 한 방법론에 대한 개선 방안을 제시하면 NLP에 처음 입성 한 사람들에게 공개됩니다.
감사합니다. – danben