2012-04-08 3 views
1

고품질의 카메라를 사용하여 문서의 특정 텍스트 블록을 스캔하고 OCR로 작성하는 도구를 만들어야합니다. 각 문서는 데이터로 채워진 테이블이 거의없는 동일한 템플릿과 일치합니다. 스캔 한 각 문서에서 특정 셀의 데이터를 추출해야합니다.복잡한 문서에서 OCR 스캔

이미지의 회전 및 사소한 변형을 고려해야합니다. 전체 워크 플로는 다음과 같아야합니다.

  1. 문서가 카메라에 "표시"됩니다. 소프트웨어는 문서의 그림을 만듭니다.
  2. 소프트웨어는 사소한 회전 및 기타 변형을 설명합니다 (문서가 손에 들고 있기 때문에 사소한 전단, 크기 조정, 회전이 발생할 수 있음).
  3. 소프트웨어는 적절한 템플릿 문서가 표시되고 있는지 확인하고 특정 셀에서 이미지를 추출합니다.
  4. 그러면 이미지가 OCR됩니다.

기본적으로 최종 솔루션이 필요하지는 않지만 어디서부터 시작해야하는지에 대한 지침이 필요합니다. 나는 일반 텍스트의 OCRing을하는 방법을 알고 있습니다. 2 단계와 3 단계를 구현하는 방법은 잘 모릅니다.

미리 감사드립니다.

+0

문서 레이아웃을 결정합니까? 프로그램에서 찾을 수있는 자리 표시 자 (십자가 또는 유사한 패턴)를 추가 할 수 있습니까? –

+0

아니요, 안됩니다. 그러나 문서는 항상 흰색 배경을 가지며 주변 배경과 항상 높은 대비를 유지합니다 (주변 환경은 결코 흰색이되지 않습니다). 기본적으로 흰색 테두리는 모양을 결정하는 데 사용할 수 있습니다. – bezmax

답변

0

기본적으로 매우 우수한 스캔 이미지의 경우 일반 텍스트의 OCR은 잘 해결 된 작업입니다. 당신이 묘사하는 것은 한 단계 더 나아가 이미지 전처리와 데이터 캡쳐를 통한 필드 레벨 인식입니다. 내가 아는 한, 오픈 소스 엔진 (그 중에서도 최고의 것으로 간주되는 tesseract조차도)은 그러한 기능을 제공하지 않습니다.

동시에 독점적 인 OCR 엔진은 엄청난 인적 자원을 소비하면서 수년간 설명한 작업을 해결해 왔으며 아주 잘 진행되었습니다. 따라서 상용 소프트웨어를 계획하고 있다면 http://ocrsdk.com을 웹 API가있는 클라우드 OCR SDK라고 생각해보십시오. 그것은 당신이 이미지를 업로드하고 OCRed 데이터를 다시 보낼 수 있습니다. 이미 모든 이미지 사전 처리 알고리즘이 내장되어 있으므로 2 단계를 염려 할 필요가 없습니다. 3 단계와 관련하여 해당 설명서의 this section을 참조 할 수 있습니다. 저는이 서비스의 프론트 엔드를 개발 한 팀의 일원 이었으므로 좀 더 자세히 설명 할 수 있습니다. 희망이 도움이됩니다!