2012-05-01 4 views
1

일부 OCR을 포함해야하는 프로젝트를 완료하려고합니다. 직업에 대해 Tesseract OCR을 골랐지 만 결과가 최적이 아닙니다. 문자 집합을 1234567890-으로 제한하려고했지만 결과가 좋지 않습니다. 이런 종류의 문자열을 더 잘 인식 할 수 있도록 Tesseract를 교육하기 위해 사용할 수있는 최적의 이미지 크기가 있습니까? PhoneOCR Tesseract로 전화 번호 읽기

그리고 결과 정팔 포체 반환 옳지 않다 05,175,150,152이며, 이미지가 어떤 식 으로든 수정되지 않기 때문에 더 나은해야한다 :

이미지

이입니다. 나는 다음 명령을 사용하여 exec를 사용하여 PHP를 통해 tesseract를 사용합니다.

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a 
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters 

내가 뭘 잘못하고 있는지에 대한 아이디어가 있습니까?

+0

내가 완료 한 것은 tesseract를 설치하는 것입니다. 교육을 받으면 반드시 수행해야합니다. – Evan

+1

제공하신 이미지가 tesseract에 비해 너무 작습니다. 더 큰 (크기 및 DPI로) 이미지를 얻고 전처리 기능을 추가해야합니다. 자세한 내용은이 부분을 참조하십시오. http://stackoverflow.com/questions/10188116/trouble-recognizing-digits-in-tesseract-android/10188704# 10188704). 또는 더 정확한 SDK를 찾으십시오. PHP로 할 수있는 일은 많지 않지만 여전히 좋은 옵션이 있습니다. 도움이 될 수 있습니다. http://stackoverflow.com/questions/8753413/optical-character-recognition-for-web-use/8800923#8800923 – Nikolay

답변

3

96 DPI의 이미지 해상도는 모든 OCR 엔진에서 어렵습니다. 300 DPI로 다시 조정하면 더 나은 결과를 얻을 수 있습니다.

또한 JPEG는 손실이 많은 이미지 형식입니다. 가능하다면 TIFF 나 PNG와 같은 다른 것을 사용하십시오.