2014-10-30 3 views
1

이메일 양식을 OCR하고 추출하려고합니다. 이미지는 이메일 주소 인 한 줄의 텍스트가 있어야합니다.이메일 주소 OCR 방법

EmguCV.OCR을 사용하여 해당 이미지에서 텍스트 (전자 메일 주소)를 추출합니다. 목표는 100 % 정확한 결과를 얻는 것입니다.

텍스트의 글꼴과 크기를 수정할 수 있습니다. 예를 들어, Ariel, 12pt는 모든 이미지가 Ariel 12pt에 흰색으로 작성된 이메일을 가질 것입니다.

EmguCV의 Tesseract OCR이 텍스트를 제대로 인식하지 못하는 문제가 있습니다. 문자의 80 % 만 정확하게 인식합니다.

나는 Leptonica 라이브러리와 함께 전처리를 사용하고 있습니다.

다음은 인식하려는 일부 샘플 이미지입니다. enter image description hereenter image description hereenter image description hereenter image description hereenter image description here

100 % 정확도의 목표 저도 같은 문제를 해결하기 위해 두 가지 방법을 제안 할 수 있습니다 그 샘플 이미지와

+1

대비를 증가시키고 제거하는 노이즈를 가능한 한 많이, 더 나은 줄 간격, 글꼴 크기 및 유형을 (이 * 참고 : 자신의 텍스트를 읽을 수없는 경우 분명히을 얻을 기대하지 않습니다 100 %'OCR' 결과, 사용하는 소프트웨어 또는 라이브러리에 따라 다름) – Kyojimaru

답변

2

을 달성 할 수있는 방법이 있습니까. 이러한 이미지에는 JPEG 아티팩트가 있습니다 (the result of lossy compression). 이 때문에 문자가 서로 연결됩니다 (실제 픽셀을 볼 수있는 프로그램에서 이미지를 확대하면 Windows 사진 뷰어가 제대로 작동합니다). TesseractOCR은 글자 사이의 간격 (연결된 구성 요소를 사용함)에 의존하여 문자 인식을합니다. 연결된 모든 부분이 인식 과정을 포기하게 만듭니다. 즉, "공동"의 조합을 하나의 문자로 인식하려고합니다.

두 가지 가능한 솔루션 :

  1. 나는 단계를 이미 수행되고 있는지 사전 확실하지 않다,하지만 당신은 (문자를 분리) 이미지에 밝은 음영을 제거하는 몇 가지 임계 값을 수행 할 수 있습니다 . 그러나 원하는 것 이상을 제거 할 수 있으므로주의해야합니다.

  2. 이 과정에서 언제든지 높은 해상도의 이미지 또는 비 jpeg/손실 형식 (예 : png)을 사용하는 경우 다른 처리 단계와 마찬가지로이 형식으로 유지하십시오. 발생할 수있는 손실 압축을 피하십시오. 위와 같이 이미지가 사용자에게 표시되지 않는 것 같습니다. 이것은 데이터 손실 위험을 감안할 때 바람직한 해결책입니다.

-1

ABBYY Cloud OCR SDK로 이미지를 인식하려고 시도했으며 100 % 정확도를 얻었습니다. Demo Tool을 사용하여 인식 정확도를 확인할 수 있습니다.

저는 ABBYY에서 일하고 필요한 경우 Google 기술에 대한 자세한 정보를 제공 할 수 있습니다.

OCR results