이미지를 텍스트로 변환 하시겠습니까? 나는 pytesseract를 사용하고 있으며 이것을 제외하고는 대부분 훌륭하게 작동합니다. 이상적으로는이 숫자들을 정확하게 읽는 것입니다. 최악의 경우 필자는 PIL을 사용하여 '/'의 왼쪽에있는 숫자가 0인지 판단 할 수 있습니다. 중간에 슬래시가 여기에 문제가 발생이미지에서 텍스트 읽기
from PIL import Image
from pytesseract import image_to_string
myText = image_to_string(Image.open("tmp/test.jpg"),config='-psm 10')
myText = image_to_string(Image.open("tmp/test.jpg"))
다음, 왼쪽에서 시작하고 첫 번째 흰색 픽셀을 찾을 수 있습니다. 또한 PIL의 '. paste'를 사용하여 이미지 주위에 여분의 검정색을 많이 추가하려고했습니다. 시도해 볼 수있는 몇 가지 다른 PIL 트릭이있을 수 있지만,해야하지 않으면 차라리 그 경로를 선택하지 않을 것입니다.
config = '- psm 10'을 사용했지만 내 8은 때때로 ":", 임의의 문자는 다른 시간에 나옵니다. 제 0은 아무 것도없이 통과했습니다. 행이
C 참조 : -psm위한 pytesseract don't work with one digit image 10 개
_____________EDIT_______________ 추가 샘플 :
10 10.I'10 그래서 나는 지금 제대로 동작 일부 부두 변환을하고 있어요. 그러나 경향이 매우 오류를 찾습니다
def ConvertPPTextToReadableNumbers(text):
text = RemoveNonASCIICharacters(text)
text = text.replace("I]", "0")
text = text.replace("|]", "0")
text = text.replace("l]", "0")
text = text.replace("B", "8")
text = text.replace("D", "0")
text = text.replace("S", "5")
text = text.replace(".I'", "/")
text = text.replace(".I", "/")
text = text.replace("I'", "/")
text = text.replace("J", "/")
return text
는 궁극적으로 생성
일반적으로ConvertPPTextToReadableNumbers return text = 18/20
ConvertPPTextToReadableNumbers return text = 0/5
ConvertPPTextToReadableNumbers return text = 10/10
ConvertPPTextToReadableNumbers return text = 20/20
'-psm 10', 당신은 시도 할 수있는 하나의 문자 인식을위한'PSM 7' (단일 텍스트 라인) 참조 : https://github.com/tesseract-ocr/tesseract/wiki/Command-Line -Usage – Gwen
필자가 몇 가지 세부 사항을 생략했다. psm 10으로 한 것은 첫 번째 문자를 잘라내어 psm 10을 사용하려는 시도였다. 나는 때때로 첫 번째 문자를 성공적으로자를 수 있었지만 일관성이 없었다.제가 8 개를 모두자를 수있을지라도, 그것은 다른 것으로 해석 될 것입니다. 그리고 다른 등장 인물들도 통과하지 못했습니다. 0을 모두 자르더라도 공백으로 나타납니다. – LampShade
psm 7을 사용하면, "0 \ 5"가 DIS로 일관되게 읽히며 솔직히 저의 최악의 경우에 충분할 것입니다. 나는 D에 대해서만 점검 할 수 있고 0 /임을 알게 될 것이다. 다른 사람이 더 좋은 해결책을 가지고 있다면, 차임을 할 자유를 느껴보십시오. "숫자로 모든 것을 해석하십시오." – LampShade