2010-01-28 3 views
3

"Spelling correction as an iterative process that exploits the collective knowledge of web users"에 설명 된 방법을 구현하여 검색 엔진 검색어에 대한 맞춤법 교정기를 구축하고 있습니다.English 검색어 수정 사전에 대한 답변

높은 수준의 접근 방식은 다음과 같습니다. 주어진 쿼리에 대해 각 unigram 및 bigram의 가능한 수정 후보 (특정 편집 거리 내의 쿼리 로그에있는 단어)를 작성한 다음 수정 된 비터 비 검색을 수행하여 찾습니다. bigram 주파수를받는 후보자의 가장 가능성이 높은 순서. 순서가 최대 확률이 될 때까지이 과정을 반복하십시오.

비터 비 검색을 수정하면 두 개의 인접 단어가 둘 다 신뢰할 수있는 어휘집에서 발견되면 최대 하나까지 수정할 수 있습니다. 이는 특히 빈도가 높은 단어에 대한 맞춤법이 잘못된 단일 단어 검색어의 수정을 피하기 위해 특히 중요합니다.

제 질문은 그러한 어휘집을 어디에서 찾을 수 있는지입니다. 영어로되어 있어야하며 검색어 및 일반 영어 단어 및 흔치 않은 영어 단어에 표시 될 고유 명사 (성/이름, 장소, 브랜드 이름 등)를 포함해야합니다. 올바른 방향으로 밀기 만해도 유용 할 것입니다.

또한이 책을 읽고 누군가가이 문서에서 제공 한 방법론에 대한 개선 방안을 제시하면 NLP에 처음 입성 한 사람들에게 공개됩니다.

답변

2

이 목적을위한 가장 효과적인 어휘집은 아마도 Google Web 1T 5-gram 데이터 세트 일 것입니다. 당신의 대학 LDC의 멤버가 아닌

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13

불행히도, 무료로하지 않습니다.

당신은 파이썬 NLTK와 같은 패키지로 코퍼리를 시도 할 수도 있습니다. 그러나 구글은 이미 검색 쿼리와 관련되어 있기 때문에 목적에 가장 잘 맞는 것처럼 보입니다.

+0

감사합니다. – danben