2

올바른 이름 맞춤법 검사기를 써야합니다.오류 모델 언어

언어 모델 검사기의 첫 번째 부분을 작성했지만 가장 어려운 부분은 오류 모델 P (W | C) 즉 작성자가 C를 의미 할 때 텍스트에 W가 입력 될 확률입니다.

내가 가장 쉬운 해결책을 내놓았을 때 알고리즘은 가장 작은 Damerau-Levenshtein 거리를 가진 단어를 선택했다. 하나의 이름이 더 많으면 알고리즘에서 가장 일반적인 이름을 선택해야한다.

응용 프로그램이 제대로 작동하지만 개선하고 싶습니다. 나는 가장 일반적인 오류로부터 배우는 전자 학습 기계 알고리즘을 소개하고자한다. 기계 학습 알고리즘을 구현해야합니다.

그래서 어떻게 할 지 생각하기 시작했습니다. 오류 모델 언어로

가 어떤 패턴을 찾을 수 있습니다 :

그것은 단어의 중간에 편지 철자가 가장 일반적입니다
  • ,
  • 가 다른 모음과 모음을 잘못 입력하는 것이 더 쉽습니다을, 그래서
  • ...

나는 사실 모든이를 구현하고 싶습니다.

또한,이 알고리즘은 문자 인식이나 음성 인식을 위해 사용될 수있다, 그러므로 내가 고려해야합니다 : 같은

  • 동음 이의어 오류, F에 대한 맞춤법의 V는 Q
  • 에 대한 오타 V보다 더 일반적입니다
  • l의 철자를 잘못 쓰거나 심지어 찾는 것과 같은 입력상의 오류! 단어 안에.

문제를 더 잘 설명하려면 다음과 같은 두 가지 시나리오를 생각해보십시오. 알고리즘은 매 스캔

  • 알고리즘은 음성 인식을 사용하는 경우 다른 하나 인으로부터 판독하기 위해 사용될 때

    • 첫 번째이다.

    유사한 사운드를 가진 문자와 같은 오류가 더 많이 발생하는 반면, 두 번째 시나리오에서는 인쇄 오류가 더 많이 발생합니다. 알고리즘이 작동하는 시나리오를 모르므로 시나리오에 동적으로 적응하는 알고리즘을 구현해야합니다. 즉, g와 같은 오류가 발생하면 오류가 발생합니다. useppe 가능성은 giuseppe입니다 (o.4) geuseppe (o.6) 알고리즘은! 모양이므로 첫 번째를 선택해야합니다. i와 비슷하며 많은 유사한 오류를 발견했습니다.

    나는 해결책이 오류로부터 배우는 알고리즘을 배우는 기계라고 생각한다.

    첫 번째 질문은 명확하게 설명 했습니까?
    그렇다면 어떤 알고리즘이 내 요구 사항을 충족합니까?

    AI 및 기계 학습에 대한 나의 경험은 제한적입니다.

  • +0

    교육 데이터는 어디서 얻을 수 있습니까? – Qnan

    +0

    약간의 오류가있는 작은 파일이 있지만 오류를 감지하는 방법을 컴퓨터에 가르치는 것으로 충분하지 않다고 생각합니다. 그러나 응용 프로그램이 시작되면 메모리에 모든 이름과 해당 배포 비율이 포함 된 사전이로드됩니다. 교육 데이터가 없으면 이전에 언급 한 모든 사항을 규칙으로 구현해야합니다. –

    +1

    글쎄, 훈련 데이터가없는 통계는 까다 롭지 만 일반적으로 사용 가능한 일반적인 맞춤법 오류가 포함 된 데이터 세트가 있어야한다고 생각합니다. – Qnan

    답변

    0

    대부분의 맞춤법을 선택하는 것이 매우 어렵 기 때문에 대부분의 맞춤법 검사기는 선택할 수있는 여러 옵션을 제공합니다. 가능하다면 그렇게하는 것이 좋습니다. 통계적 학습 없이도 빠져 나갈 수 있습니다. 사용자와 입력 사이의 편집 거리가 주어진 값 이하가되도록 가능한 모든 유효한 이름을 사용자에게 제시하십시오. N.