2017-09-17 2 views
3

이미지에서 텍스트를 추출하려고합니다.이미지에서 텍스트를 추출하는 중

:

초기 이미지가 이미지를 처리있어서, 흰색에 배치 텍스트로 착색되어, 텍스트가 (일부 잡음) 백색이다 블랙과 다른 화소에 도시되며, 여기서 샘플이고

이제 pytesseract (tesseract)를 사용하여 OCR을 시도 할 때 텍스트가 표시되지 않습니다.

컬러 이미지에서 텍스트를 추출 할 수있는 해결책은 있습니까? 그 결과로

+0

색상을 회색조로 변환하고 모든 것이 검은 색이나 흰색이되도록 임계 값을 설정하십시오. 얼룩 제거를 시도해 볼 수는 있지만, 명령 줄에서'tesseract '명령을받지 못하면 Google에서 ocropy를 추천합니다. –

+0

[Adrian Rosebrock의 블로그] (http://www.pyimagesearch.com/2017/07/10/using-tesseract-ocr-python/)에서 도움을 얻으려고 했습니까? –

+0

원칙적으로 가능해야합니다. ocr.space를 사용하면 이미지가 Google OCR에서 제대로 작동하고 반쪽에서 제대로 작동합니다. 나는 https://ocr.space/compare-ocr-software로 시험했다 –

답변

2
from PIL import Image 
import pytesseract 
import argparse 
import cv2 

# construct the argument parser and parse the arguments 
ap = argparse.ArgumentParser() 
ap.add_argument("-i", "--image", required=True, help="Path to the image") 
args = vars(ap.parse_args()) 

# load the image and convert it to grayscale 
image = cv2.imread(args["image"]) 
cv2.imshow("Original", image) 

# Apply an "average" blur to the image 

blurred = cv2.blur(image, (3,3)) 
cv2.imshow("Blurred_image", blurred) 
img = Image.fromarray(blurred) 
text = pytesseract.image_to_string(img, lang='eng') 
print (text) 
cv2.waitKey(0) 

내가 = 얻을 "스테이 : 측정 Overwoter 방갈로에서 $ 3»"

어떤 윤곽을 사용하고 그것에서 불필요한 모양을 복용에 대한? 작동 할 수도 있습니다.

+0

고마워, 나는 그것을 시험해보고, 결과를 게시 할 것이다. –

관련 문제