OCR을 사용하여 단어의 연결된 문자를 구분하는 일반적인 방법은 무엇입니까

OCR을 처음 접했고 단어를 인식하는 데 사용 된 알고리즘에 대해 거의 알지 못합니다. 나는 그저 익숙해 져있다.OCR을 사용하여 단어의 연결된 문자를 구분하는 일반적인 방법은 무엇입니까

누구나 연결 형식의 개별 문자를 인식하고 구분하는 데 사용되는 일반적인 방법에 대해 조언 해 주실 수 있습니까? (모든 문자가 함께 연결된 단어를 의미합니까?) 글자가 알려진 글꼴을 사용하여 함께 연결되었다고 가정하면 필기를 잊어 버리십시오. 단어 하나 하나 하나를 결정하는 가장 좋은 방법은 무엇입니까? 글자가 따로 따로 쓰여지더라도 아무런 문제가 없지만, 서로 합쳐지면 다음 단계로 가서 편지에 개별적으로 매치시키기 위해 모든 글자의 시작과 끝을 알아야합니다. 알려진 알고리즘이 있습니까?

출처

2010-04-14 Meysam

이 프로세스의 표준 용어는 "문자 세분화"입니다. 세분화는 인식을 위해 이미지를 그룹화 된 영역으로 분할하기위한 이미지 처리 용어입니다. "아랍어 문자 세분화"throws up a lot of hits in google scholar 자세히 알고 싶다면.

Tesseract - an open source OCR implementation, 특히 the documents을 살펴 보시기 바랍니다.

the glossary에 정의 된대로은 약간의 정보가 있지만 여기에는 많은 정보가 있습니다.

기본적으로 Tesseract는 얼룩 (문자가 아님)을보고 그 얼룩을 단어로 결합하여 문제를 해결합니다 (How Tesseract Works). 이렇게하면 새로운 문제를 생성하면서 설명하는 문제를 피할 수 있습니다.

아랍어의 경우 (사용자가 지적한대로) Tesseract는 작동하지 않습니다. 나는이 분야에 대해 많이 알지 못하지만 this paper은 Dynamic Time Warping (DTW)을 암시하는 유용한 기법이다. 이것은 알려진 단어와 일치하도록 단어를 늘리려고하며 문자 공간보다는 단어로 다시 작동합니다.

출처

2010-04-14 09:27:33

Tesseract는 아랍어와 같은 연결된 스크립트를 처리 할 수 없을 것입니다. 이 경우를 처리하기 위해 특수화 된 알고리즘이 필요하며 현재는 필요하지 않습니다. code.google.com/p/tesseract-ocr/wiki/TrainingTesseract – Meysam

충분합니다. 나는 당신이 영어에 연결되어 있다고 말하고 있다고 생각했다 (필기체). 바라건대 아이디어는 유용합니다. 아랍어에 대한 또 다른 답변을 추가하겠습니다. –

OCR을 사용하여 단어의 연결된 문자를 구분하는 일반적인 방법은 무엇입니까

답변

관련 문제