올바른 이름 맞춤법 검사기를 써야합니다.오류 모델 언어
언어 모델 검사기의 첫 번째 부분을 작성했지만 가장 어려운 부분은 오류 모델 P (W | C) 즉 작성자가 C를 의미 할 때 텍스트에 W가 입력 될 확률입니다.
내가 가장 쉬운 해결책을 내놓았을 때 알고리즘은 가장 작은 Damerau-Levenshtein 거리를 가진 단어를 선택했다. 하나의 이름이 더 많으면 알고리즘에서 가장 일반적인 이름을 선택해야한다.
응용 프로그램이 제대로 작동하지만 개선하고 싶습니다. 나는 가장 일반적인 오류로부터 배우는 전자 학습 기계 알고리즘을 소개하고자한다. 기계 학습 알고리즘을 구현해야합니다.
그래서 어떻게 할 지 생각하기 시작했습니다. 오류 모델 언어로
가 어떤 패턴을 찾을 수 있습니다 :
그것은 단어의 중간에 편지 철자가 가장 일반적입니다- ,
- 가 다른 모음과 모음을 잘못 입력하는 것이 더 쉽습니다을, 그래서
- ...
나는 사실 모든이를 구현하고 싶습니다.
또한,이 알고리즘은 문자 인식이나 음성 인식을 위해 사용될 수있다, 그러므로 내가 고려해야합니다 : 같은
- 동음 이의어 오류, F에 대한 맞춤법의 V는 Q 에 대한 오타 V보다 더 일반적입니다
- l의 철자를 잘못 쓰거나 심지어 찾는 것과 같은 입력상의 오류! 단어 안에.
문제를 더 잘 설명하려면 다음과 같은 두 가지 시나리오를 생각해보십시오. 알고리즘은 매 스캔
- 첫 번째이다.
유사한 사운드를 가진 문자와 같은 오류가 더 많이 발생하는 반면, 두 번째 시나리오에서는 인쇄 오류가 더 많이 발생합니다. 알고리즘이 작동하는 시나리오를 모르므로 시나리오에 동적으로 적응하는 알고리즘을 구현해야합니다. 즉, g와 같은 오류가 발생하면 오류가 발생합니다. useppe 가능성은 giuseppe입니다 (o.4) geuseppe (o.6) 알고리즘은! 모양이므로 첫 번째를 선택해야합니다. i와 비슷하며 많은 유사한 오류를 발견했습니다.
나는 해결책이 오류로부터 배우는 알고리즘을 배우는 기계라고 생각한다.
첫 번째 질문은 명확하게 설명 했습니까?
그렇다면 어떤 알고리즘이 내 요구 사항을 충족합니까?
AI 및 기계 학습에 대한 나의 경험은 제한적입니다.
교육 데이터는 어디서 얻을 수 있습니까? – Qnan
약간의 오류가있는 작은 파일이 있지만 오류를 감지하는 방법을 컴퓨터에 가르치는 것으로 충분하지 않다고 생각합니다. 그러나 응용 프로그램이 시작되면 메모리에 모든 이름과 해당 배포 비율이 포함 된 사전이로드됩니다. 교육 데이터가 없으면 이전에 언급 한 모든 사항을 규칙으로 구현해야합니다. –
글쎄, 훈련 데이터가없는 통계는 까다 롭지 만 일반적으로 사용 가능한 일반적인 맞춤법 오류가 포함 된 데이터 세트가 있어야한다고 생각합니다. – Qnan