2017-05-22 1 views
-2

상점에서 생성 한 청구서/인보이스를 스캔하고 상점 이름, 주소, 구입 한 품목, 청구서 값 등의 주요 기능을 추출 할 수있는 모바일 앱을 만들 계획입니다. 사용할 수 있음을 이해합니다. OCR은 법안 (스캔 한 법안이나 법안의 사진)에서 텍스트를 추출하지만,이 모든 세부 사항을 어떻게 추출합니까? 어떤 접근 방법을 사용합니까?청구서를 검색하는 OCR

답변

3

음은 앱 당신은 4 단계

있을 것이다 구축을 위해 노력하고 있습니다 데이터 추출 - 시스템 DOC, PPT 및 PDF 등의 파일 형식으로 저장된 텍스트 데이터를 추출 할 수 있어야한다. 또한 시스템에서 이미지에서 데이터를 추출 할 수 있어야합니다.

데이터 식별 - 데이터 추출에 대한 다음 단계는 사용자 정의 패턴을 기반으로 데이터를 식별하는 것입니다.

데이터 분류 - 사용자 정의 범주로 분류하십시오.

데이터 전달 -이 프로세스에서 식별 된 데이터 범주를 기반으로 다른 동작을 수행하십시오.

당신이 올바른지 - 필요 OCR에광학 문자 인식 작동하도록

OCR은의 여부를 기계로 인코딩 된 텍스트로 입력, 필기 또는 인쇄 된 텍스트의 이미지의 기계적 또는 전자 변환입니다 스캔 한 문서, 문서의 사진

또한 같은이라고해도 상용 제품 또는 라이브러리에 대한 시장에서 사용할 수있는 솔루션이 많이있다 ..

상업 제품 :

Google 문서 도구 (무료)

ABBYY FineReader의 프로 (유료)

OmniPage STANDAR (유료)

Readiris가 프로 (유료)

하지만 당신은 아직도 당신이 정팔 포체 - OCR을 사용할 수 있습니다 그것을 위해 자신의 제품을 구축하고자하는 경우 - 당신은 자바를 사용하여 응용 프로그램을 구축 할 수 있습니다/Python. Tesseract는 사용 가능한 가장 정확한 오픈 소스 OCR 엔진입니다.

Leptonica Image Processing Library와 결합되어 다양한 이미지 형식을 읽고 60 개 이상의 언어로 텍스트로 변환 할 수 있습니다.

APACHE TIKA - Apache Tika는 다양한 파일 형식의 문서 유형 감지 및 콘텐츠 추출에 사용되는 라이브러리입니다.

내부적으로 Tika는 다양한 기존 문서 파서 및 문서 유형 감지 기술을 사용하여 데이터를 감지하고 추출합니다.

Tika를 사용하면 스프레드 시트, 텍스트 문서, 이미지, PDF 및 심지어 멀티미디어 입력 형식과 같은 다양한 유형의 문서에서 구조화 된 텍스트와 메타 데이터를 어느 정도 추출 할 수있는 범용 유형 감지기 및 컨텐트 추출기를 개발할 수 있습니다 .

Tika는 다양한 파일 형식을 구문 분석하기위한 단일 일반 API를 제공합니다. 각 문서 유형에 대해 83 개의 기존 전문 파서 라이브러리를 사용합니다.

이 모든 파서 라이브러리가 파서 인터페이스라는 단일 인터페이스에서 캡슐화됩니다 ..

아파치 티카 ™ 툴킷, 감지 및 PPT, XLS 등 천 개 이상의 다른 파일 형식 (메타 데이터 및 텍스트를 추출 PDF).

이러한 모든 파일 유형은 단일 인터페이스를 통해 구문 분석 할 수 있으므로 검색 엔진 색인 생성, 콘텐츠 분석, 번역 등에 유용합니다.

TIKA 서버와 Tesseract OCR을 함께 사용하는 것이 좋습니다.

, PDF 구문 분석에 대한 개선 OCR, 메시지 구문 분석 및 MIME 감지 기능을 사용하여 셉션 API를 통해 구글의 Tensorflow 이미지 인식을 가진이 모두 함께 포함 통합

구글 비전 API - 당신은 구글을 ​​사용하여 솔루션을 구축하는 경우 클라우드 플랫폼

구글 비전 API는 다음과 같은 웹에서 사용되는 이미지 포맷의 대부분을 지원 GIF, BMP, WebP 형식, 원시, 특별하다고, 등

시험은 이미지를 기반으로 어떤 성능 또는 품질 문제를 공개하지 않은 JPEG 형식과 같은 손실 형식은 매우 낮은 해상도 (예 : 1MP 미만).

Google 클라우드 비전은 요청에 따라 8메가바이트로 제한됩니다 Google 클라우드 스토리지

비전의 일괄 처리 지원에 저장된 파일을 받아들입니다. 따라서 1,000 개 현대 이미지의 비교적 큰 데이터 세트에는 200 개가 넘는 배치 요청이 필요할 수 있습니다.

결론 최상의 결과를 들어

는 아파치 티카는 오픈 소스 솔루션과 0 즉 제로 것 하겠네요 것이다 정팔 포체 OCR과 모두 함께 사용되어야합니다.

그러나 OCR이 핵심 기능이며 신뢰할 수있는 즉 Google Vision API를 찾고 있습니다.이 기능은 다른 기능보다 정확하고 빠르며 더욱 기능이 뛰어납니다.

예, 비용이 포함되며 유료 솔루션으로 계산됩니다.

+0

자세한 설명 주셔서 감사합니다. OCR이 데이터 추출에 해당 함을 이해합니다. 그러나 데이터 식별/분류는 어떻게 수행합니까? 내가 볼 수있는 알고리즘이나 기존 샘플 코드는 무엇입니까? – user3807940

+1

망치를 사용해보십시오 - mallet.cs.umass.edu/ –