상점에서 생성 한 청구서/인보이스를 스캔하고 상점 이름, 주소, 구입 한 품목, 청구서 값 등의 주요 기능을 추출 할 수있는 모바일 앱을 만들 계획입니다. 사용할 수 있음을 이해합니다. OCR은 법안 (스캔 한 법안이나 법안의 사진)에서 텍스트를 추출하지만,이 모든 세부 사항을 어떻게 추출합니까? 어떤 접근 방법을 사용합니까?청구서를 검색하는 OCR
답변
음은 앱 당신은 4 단계
있을 것이다 구축을 위해 노력하고 있습니다 데이터 추출 - 시스템 DOC, PPT 및 PDF 등의 파일 형식으로 저장된 텍스트 데이터를 추출 할 수 있어야한다. 또한 시스템에서 이미지에서 데이터를 추출 할 수 있어야합니다.
데이터 식별 - 데이터 추출에 대한 다음 단계는 사용자 정의 패턴을 기반으로 데이터를 식별하는 것입니다.
데이터 분류 - 사용자 정의 범주로 분류하십시오.
데이터 전달 -이 프로세스에서 식별 된 데이터 범주를 기반으로 다른 동작을 수행하십시오.
당신이 올바른지 - 필요 OCR에 즉 광학 문자 인식 작동하도록
OCR은의 여부를 기계로 인코딩 된 텍스트로 입력, 필기 또는 인쇄 된 텍스트의 이미지의 기계적 또는 전자 변환입니다 스캔 한 문서, 문서의 사진
또한 같은이라고해도 상용 제품 또는 라이브러리에 대한 시장에서 사용할 수있는 솔루션이 많이있다 ..
상업 제품 :
Google 문서 도구 (무료)
ABBYY FineReader의 프로 (유료)
OmniPage STANDAR (유료)
Readiris가 프로 (유료)
하지만 당신은 아직도 당신이 정팔 포체 - OCR을 사용할 수 있습니다 그것을 위해 자신의 제품을 구축하고자하는 경우 - 당신은 자바를 사용하여 응용 프로그램을 구축 할 수 있습니다/Python. Tesseract는 사용 가능한 가장 정확한 오픈 소스 OCR 엔진입니다.
Leptonica Image Processing Library와 결합되어 다양한 이미지 형식을 읽고 60 개 이상의 언어로 텍스트로 변환 할 수 있습니다.
APACHE TIKA - Apache Tika는 다양한 파일 형식의 문서 유형 감지 및 콘텐츠 추출에 사용되는 라이브러리입니다.
내부적으로 Tika는 다양한 기존 문서 파서 및 문서 유형 감지 기술을 사용하여 데이터를 감지하고 추출합니다.
Tika를 사용하면 스프레드 시트, 텍스트 문서, 이미지, PDF 및 심지어 멀티미디어 입력 형식과 같은 다양한 유형의 문서에서 구조화 된 텍스트와 메타 데이터를 어느 정도 추출 할 수있는 범용 유형 감지기 및 컨텐트 추출기를 개발할 수 있습니다 .
Tika는 다양한 파일 형식을 구문 분석하기위한 단일 일반 API를 제공합니다. 각 문서 유형에 대해 83 개의 기존 전문 파서 라이브러리를 사용합니다.
이 모든 파서 라이브러리가 파서 인터페이스라는 단일 인터페이스에서 캡슐화됩니다 ..
아파치 티카 ™ 툴킷, 감지 및 PPT, XLS 등 천 개 이상의 다른 파일 형식 (메타 데이터 및 텍스트를 추출 PDF).
이러한 모든 파일 유형은 단일 인터페이스를 통해 구문 분석 할 수 있으므로 검색 엔진 색인 생성, 콘텐츠 분석, 번역 등에 유용합니다.
TIKA 서버와 Tesseract OCR을 함께 사용하는 것이 좋습니다.
, PDF 구문 분석에 대한 개선 OCR, 메시지 구문 분석 및 MIME 감지 기능을 사용하여 셉션 API를 통해 구글의 Tensorflow 이미지 인식을 가진이 모두 함께 포함 통합
구글 비전 API - 당신은 구글을 사용하여 솔루션을 구축하는 경우 클라우드 플랫폼
구글 비전 API는 다음과 같은 웹에서 사용되는 이미지 포맷의 대부분을 지원 GIF, BMP, WebP 형식, 원시, 특별하다고, 등
시험은 이미지를 기반으로 어떤 성능 또는 품질 문제를 공개하지 않은 JPEG 형식과 같은 손실 형식은 매우 낮은 해상도 (예 : 1MP 미만).
Google 클라우드 비전은 요청에 따라 8메가바이트로 제한됩니다 Google 클라우드 스토리지
비전의 일괄 처리 지원에 저장된 파일을 받아들입니다. 따라서 1,000 개 현대 이미지의 비교적 큰 데이터 세트에는 200 개가 넘는 배치 요청이 필요할 수 있습니다.
결론 최상의 결과를 들어
는 아파치 티카는 오픈 소스 솔루션과 0 즉 제로 것 하겠네요 것이다 정팔 포체 OCR과 모두 함께 사용되어야합니다.
그러나 OCR이 핵심 기능이며 신뢰할 수있는 즉 Google Vision API를 찾고 있습니다.이 기능은 다른 기능보다 정확하고 빠르며 더욱 기능이 뛰어납니다.
예, 비용이 포함되며 유료 솔루션으로 계산됩니다.
- 1. AppendBillPaymentCheckAddReq로 청구서를 지불하려면 어떻게해야합니까?
- 2. C에서 청구서를 인쇄하는 방법 #
- 3. OCR, OCR-B PHP의 글꼴?
- 4. OCR 라벨 일치
- 5. 모바일 사진 용 OCR
- 6. OCR 특정 글꼴로 스캔하기
- 7. OCR 코드
- 8. C# OCR
- 9. 어떻게 OCR
- 10. 클라우드는시 또는 분 단위로 @ 구름 청구서를 실행합니까?
- 11. 인쇄 청구서를 통해 C# .net 창 신청
- 12. AWS RDS 인스턴스에서 청구서를 줄이는 방법
- 13. PayPal 청구서를 생성하고 인보이스를 보내려면 어떻게해야합니까?
- 14. 의료 청구서를 자바의 .txt 파일에 작성하십시오.
- 15. 왜 OCR 실행 오류가 발생하는 OCR (MODI.MiLANGUAGES.miLANG_ENGLISH, true, true)입니까?
- 16. OCR 프로그램은 어떻게 작성합니까?
- 17. OCR 라이브러리 (Blackberry 용)
- 18. OCR 인식 - gocr
- 19. Tesseract OCR 고급 사용
- 20. 리눅스에서 J4L ocr 설치
- 21. OCR 대체 MODI
- 22. 오픈 소스 OCR
- 23. android에서 tesseract OCR 사용하기
- 24. OCR 용 OpenCv pytesseract
- 25. 이메일 주소 OCR 방법
- 26. OpenCV HOGDescriptor OCR
- 27. OCR 단어 분리
- 28. OCR with Unity3d
- 29. OCR 마커 감지
- 30. OCR on image - iOS
자세한 설명 주셔서 감사합니다. OCR이 데이터 추출에 해당 함을 이해합니다. 그러나 데이터 식별/분류는 어떻게 수행합니까? 내가 볼 수있는 알고리즘이나 기존 샘플 코드는 무엇입니까? – user3807940
망치를 사용해보십시오 - mallet.cs.umass.edu/ –