2017-12-28 6 views
-1

미리 작성된 양식을 직접 작성하여 데이터 입력을 자동화하려고합니다. 문자는 구분되지 않지만 필드는 테이블 아래 또는 테이블의 일부로 식별 할 수 있습니다. 나는 필기 OCR이 여전히 활발한 연구 분야이며, 나는 운전자 리뷰 기능을 포함 할 수 있으므로 정확도가 90 %를 넘을 것이라고 기대하지 않습니다.미리 정의 된 양식에 필기 입력을위한 필드 식별 및 OCR (Optical Character Recognition)을 통한 데이터 입력 자동화

필자가 생각한 첫 번째 해결책은 필드 식별 (http://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/)을위한 OpenCV와 필기체 (https://github.com/openpaperwork/pyocr)를 인식하는 Tesseract의 조합입니다.

미리 정의 된 양식을 사용하여 필드를 식별 할 수있는 또 다른 잠재적 인 간단하고 효과적인 방법은 여하튼 채워진 양식에서 공백 양식을 빼는 것입니다. 양식을 스캔 할 것이므로 일부 위치 허용 오차, 노이즈 감소 및 피쳐 인식이 필요할 수 있습니다.

어떤 제안이나 의견이라도 대단히 감사하겠습니다.

+1

일반적인 접근 방법을 얻으려면 https://stackoverflow.com/questions/33452222/detect-table-with-opencv/46806306#46806306을 참조하십시오. – flamelite

답변

1

Tesseract FAQ에서 말했듯이 필기 인식을 성공적으로 수행하기를 원하는 경우에는 사용하지 않는 것이 좋습니다. Microsoft OCR API (이미지에서 손으로 쓴 텍스트를 읽으려면 아래로 스크롤하십시오)과 같은 상업적 프로젝트를 더 많이 보길 원하면 온라인에서 사용해보고 응용 프로그램에서 해당 API를 사용할 수 있습니다. (가) 해당이 떠오르는 생각 Lipi toolkit

입니다 -

또 다른 옵션은 테이블을 인식하는 유용한 기능을 많이 가지고 ABBYY OCR이다 등 복잡한 문서는 무료로 대안에 관해서는 here

더 많은 읽을 수 있습니다

글자의 탐지는 입력에 따라 달라집니다. 일반적으로 양식이 매번 동일하거나 다소 다를 경우 양식을 측정하고 텍스트를 검색해야하는 미리 정의 된 위치를 사용하는 것이 가장 좋습니다. 그렇지 않으면 OpenCV는 텍스트를 찾는 데 적합한 기술입니다. 자습서는 온라인에 많이 있으며 여기에 stackoverflow에 대한 좋은 답변이 있습니다. 예를 들어 detection using MSER 대답을 Silencer에서 살펴볼 수 있습니다.

+0

[채팅에서 계속 토론] (http : //chat.stackoverflow.com/rooms/162175/discussion-between-flamelite-and-dmitrii-z). – flamelite

관련 문제