13

특정 형식 인 XXX-XXX로 숫자를 읽는 Python으로 OCR 프로그램을 구현하려고했습니다. Google의 Cloud Vision API 텍스트 인식을 사용했지만 그 결과는 신뢰할 수 없습니다. 고 대비 1280 x 1024 bmp 이미지 30 개 중에서 소수만 올바른 출력을 얻었거나 결과에 올바른 출력을 포함 시켰습니다. 이 프로그램은 영어 이외의 언어로 출력되거나 몇 가지 특수 문자로 몰래 들어가는 숫자를 생략하는 경향이 있습니다.Google Cloud 비전 - 숫자 및 숫자 OCR

목표는 적어도 정확한 숫자를 연속적으로 출력하는 것이고 결과에 다른 정크가 뿌려지는 지 여부는 중요하지 않습니다. 프로그램이 숫자를 더 잘 인식하도록 돕는 방법이 있습니까? 예를 들어 결과를 특정 형식이나 숫자로만 제한 할 수 있습니까?

답변

4

here (Cloud Vision API의 프로젝트 관리자가 말함)과 같이 제약 조건을 추가하거나 특정 예상 숫자 형식을 Vision API 요청에 제공 할 수 없습니다.

또한 가능한 모든 요청 매개 변수 (API reference)를 확인하고 숫자 형식을 지정하는 데 아무 것도 표시하지 않을 수도 있습니다. 에 현재는 옵션 :

  • latLongRect : 나는 이미 여러 체크 아웃 가정 예상 text_detection의 언어

(지원되는 언어 here의 목록)를 나타내는 : 이미지

  • languageHints의 위치를 ​​지정 당신이 다른 자릿수의 위치를 ​​사용하여 텍스트를 재구성 할 수 있는지보기 위해 (포함 된 이미지 영역이 다른) 응답?

    비전 API 및 text_detection은 데이터에 맞게 최적화되지 않았으므로 주석이 달린 데이터가 많은 경우 실제로 Tensorflow를 사용하여 자신의 모델을 빌드하는 옵션이 될 수 있습니다. This blogpost은 숫자 플레이트 (특정 숫자 형식)를 감지하는 시스템 설정을 설명합니다. 모든 코드는 Github에 있으며 문제는 귀하와 매우 관련이있는 것으로 보입니다.

  • 2

    나는 왜 이것이 작동하는지 알려주지 못합니다. 아마도 언어가 어떻게 읽히는 지와 관련이 있습니다. 오 대 0 대 1 대 1 등입니다. 그러나 OCR을 사용할 때마다 구체적으로 숫자를 찾고 있습니다. 감지 언어를 "한국어"로 설정하도록 읽었습니다. 그것은 나를 위해 예외적으로 잘 작동하고 정확성에 크게 영향을 미쳤습니다.