OCR을 처음 접했고 단어를 인식하는 데 사용 된 알고리즘에 대해 거의 알지 못합니다. 나는 그저 익숙해 져있다.OCR을 사용하여 단어의 연결된 문자를 구분하는 일반적인 방법은 무엇입니까
누구나 연결 형식의 개별 문자를 인식하고 구분하는 데 사용되는 일반적인 방법에 대해 조언 해 주실 수 있습니까? (모든 문자가 함께 연결된 단어를 의미합니까?) 글자가 알려진 글꼴을 사용하여 함께 연결되었다고 가정하면 필기를 잊어 버리십시오. 단어 하나 하나 하나를 결정하는 가장 좋은 방법은 무엇입니까? 글자가 따로 따로 쓰여지더라도 아무런 문제가 없지만, 서로 합쳐지면 다음 단계로 가서 편지에 개별적으로 매치시키기 위해 모든 글자의 시작과 끝을 알아야합니다. 알려진 알고리즘이 있습니까?
Tesseract는 아랍어와 같은 연결된 스크립트를 처리 할 수 없을 것입니다. 이 경우를 처리하기 위해 특수화 된 알고리즘이 필요하며 현재는 필요하지 않습니다. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract – Meysam
충분합니다. 나는 당신이 영어에 연결되어 있다고 말하고 있다고 생각했다 (필기체). 바라건대 아이디어는 유용합니다. 아랍어에 대한 또 다른 답변을 추가하겠습니다. –