2011-04-25 3 views
6

컴퓨터로 인쇄 된 카드 (카드의 고정 된 위치에 있음)의 일부 숫자를 인식하고 웹 서비스로 보낼 수있는 앱을 개발하고 싶습니다.Iphone 카메라를 사용하여 특정 위치의 텍스트 인식

나는 OCR을 사용해야한다고 알고 있지만 어떤 제품이 내 필요에 맞는지 잘 모르겠습니다. 당신이 나에게 시장에서 어떤 API 나 제품을 제안 할 수 있다면 좋을 것입니다. (오픈 소스는 필수는 아니지만 매우 환영받을 것입니다 :) 그것은이 프로젝트에서 저를 도울 수 있습니다.

저는 기술적 인 질문이 있습니다. 장치에 OCR 인식을 구현하겠습니까? 아니면 웹 서비스를 사용하여 사진을 전달할 것입니까? 두 모델의 장단점은 무엇입니까?

답변

2

이미지의 특정 필드를 찾는 솔루션이 필요한 경우 OCR이 아니라 데이터 캡처 태스크입니다. 이를 해결하는 방법에는 여러 가지가 있습니다. 다른 답변에서 제안 된 것처럼 OCR 출력을 기반으로 한 필드 감지 솔루션을 작성하거나 특별히 설계된 툴킷을 사용하고 레이아웃 구조를 정의하기위한 시각적 도구를 제공하십시오.

첫 번째 방법은 더 많은 프로그래밍이 필요하지만 라이센스면에서 더 저렴합니다. commertial뿐만 아니라 Tesseract와 같은 오픈 소스 OCR 라이브러리를 선택할 수도 있습니다. Tesseract는 완벽 할 수는 없지만 일부 조정 및 글꼴 교육으로 많은 작업을 수행 할 수 있습니다.

저품질 이미지 (전화 카메라로 찍은 이미지는 그 중 상당 부분을 차지합니다)를 처리 할 때 현장 위치 솔루션은 이미지의 일부분이 인식되지 않거나 잘못 인식 되어도 계속해서 문제를 해결할 수 있어야합니다 원하는 필드를 찾으십시오. 합리적인 조합을 제공하기 위해 여러 인식 변형을 교차 검사 할 수도 있습니다.

이것은 사소한 것이 아니며 신뢰할 수있는 작업을 얻으려면 시간이 필요합니다. 그러나 당신이 매우 복잡한 문서를 가지고 있지 않고 단 하나의 레이아웃 만 있고 매우 예측 가능하다면 여전히 실행 가능합니다. 일단 코드를 소유하면 서버와 전화 모두에서이 코드를 실행할 수 있습니다.

조금 더 복잡한 문서와 다양한 레이아웃 변형을 찾는 경우 순수한 코드로이 논리를 만지는 것은 너무 어려울 수 있습니다. 이 경우 고급 데이터 캡처 기술을 찾는 것이 좋습니다. 거기에 꽤 많은 데이터 캡쳐 제품이 있지만 API 형태로 제공되는 제품 중 하나만 알고 있습니다. http://www.abbyy.com/flexicapture_engine/

두 가지 구성 요소가 있습니다. 하나는 문서 설명을 작성하고 디버그하기위한 시각 도구입니다. 문서에서 필드 위치의 논리를 설명하기 만하면 기술이 나머지 부분에 대해주의를 기울입니다. 다른 변형에 대한 투표, 재발 착시 실수 등에주의하십시오. 하나의 값이 문서 레이아웃의 다른 값과 일치하는지 확인하기 위해 몇 가지 대체 문서 구조 및 규칙을 정의 할 수 있습니다. 이러한 규칙은 또한 최고의 인식 변형을 선택하는 데 영향을 미칩니다.

두 번째 구성 요소는 실제로 API입니다. 애플리케이션에 연결하고 문서 템플릿 설명을로드하기 만하면됩니다. 모바일 인식 시나리오에서는 모바일에 적합하기에는 너무 강력하고 무겁기 때문에 서버 백엔드 처리로만 사용할 수 있습니다. 그러나 그 밝은면은 모든 모바일 OS에 이식 할 필요가 없으며 모바일 리소스에 적합한 제한된 OCR 기술과는 반대로 완전한 기능의 OCR 기술을 사용한다는 것입니다. 이 툴킷에는 전화로 캡쳐 한 이미지에서 더 잘 작동하는 몇 가지 고급 이미지 처리 기술이 포함되어 있습니다.

면책 조항 : 나는 ABBYY에서 일합니다.

관련 문제