2009-09-11 2 views
1

맞춤법 검사기를 변형하려고합니다. 다양한 경로를 택한 후에 (시간 효율성을 높이기 위해) n-gram 모델 사용과 관련된 구성 요소를 시험해 볼 계획입니다. 그래서 본질적으로 추가 처리를 위해 후보자 목록을 정리하고 싶습니다. 여러분은 n의 한 값 (2)을 사용하면 다른 값 (3)보다 더 좋을지 알 수 있습니까?n-gram 모델에서 n에 대해 경험적으로 찾은 최상의 값은 무엇입니까?

답변

0

this website에 따르면 영어의 평균 단어 길이는 5.10 자입니다. 나는 사람들이 짧은 단어보다 더 긴 단어를 잘못 철자 할 가능성이 더 높다고 가정하기 때문에 가능하다면 3 ~ 5 자 정도의 글자를 앞으로 나아갈 것입니다.

0

당신이 n 그램을 말할 때, 저는 문장에서 단어가 아닌 아마도 단어에서 문자를 말하는 것이라고 가정 할 것입니다. 이 경우 마크 루샤코프 (Mark Rushakoff)는 당신이 통제하는 단어보다 3-5 자 정도 더 많거나 적은 단어까지 후보 목록을 정리할 수 있다는 점에서 동의합니다.

또 다른 옵션은 두 단어 사이의 편집 거리를 찾기 위해 Levenshtein algorithm을 구현하는 것입니다. 이는 매우 효율적으로 수행 할 수 있습니다. 첫째, 정리 된 목록을 확인하는 것입니다. 두 번째로, 편집 거리가 일종의 제한 (예 : 3-5)을 초과하면 조기에 단어의 거리 계산을 끝내는 것입니다.

사이드 노트에 나는 짧은 단어를 무시해야한다는 점에 동의하지 않습니다. 짧은 단어는 덜 빈번히 잘못 입력되기 때문입니다. 잘못된 단어의 대부분은 단어가 빈번하기 때문에 짧은 단어 (예 : "and"- "nad", "the"- "teh", "you"- "yuo")가됩니다.

희망이 도움이됩니다.

0

교육용으로 충분한 텍스트가 있으면 3을 시작하는 것이 좋습니다. 반면에, 그러한 모델은 꽤 커지고 맞춤법 검사기를 부 풀릴 것입니다.

perplexity을 기반으로 다른 설정을 비교할 수도 있습니다.

관련 문제