2016-08-17 3 views
2

전 Tesseract OCR을 처음 사용했습니다. 이 문제는 간단 할 수도 있지만 Google을 사용하여 답변을 찾지 못하는 것 같습니다.Tesseract를 사용하여 검정색 배경에 흰색 문자를 감지합니다.

기본적으로 나는 두 부분으로 구성된 이미지를 가지고 있습니다. 이미지의 맨 위에있는 첫 번째 부분은 흰색으로 된 텍스트가있는 검은 색 배경을 가지고 있습니다. 이미지의 맨 아래에있는 두 번째 부분에는 검은 색 텍스트가있는 흰색 배경이 있습니다.

이미지에 tesseract가 실행되어 맨 아래 부분에있는 모든 문자를 올바르게 인식했지만 상단 부분에는 아무 것도 인식하지 못했습니다. 상단 부분의 문자가 매우 명확하고 Tesseract에서 쉽게 인식 할 수 있어야합니다. 유일한 차이점은 검정색 배경이 있다는 것입니다.

Tesseract를 사용하여 흑백 배경의 텍스트를 동시에 인식하는 방법이 있습니까?

답변

0

T. Kasar, J. Kumar 및 A. G. Ramakrishnan의 논문은이 문제에 대한 한 가지 해결책을 설명합니다 : "글꼴 및 배경 색상 독립적 인 텍스트 이진화". 그 종이는 here입니다. Jason Funk가 알고리즘을 구현했습니다. 그의 구현은 here입니다. 알고리즘에 성공했습니다. 나는이 유형의 해결책이 당신이 찾고있는 것이라고 생각합니다.

배경 제거 (OpenCV for OCR: How to compute thresholding levels for gray image OCR)에 대한 최근 질문과 그 대답을 검토하는 것이 도움이 될 수 있습니다. 배경색별로 관심 영역을 분리하여 처리 할 수 ​​있도록 각 영역을 tesseract로 전달할 수 있습니다. 또는 이진화 이후에 이미지의 검은 색 배경 부분 (또는 부사령 대)에서 8x8 픽셀 영역을 반전시켜 균일 한 배경을 만들 수 있습니다.

마지막으로 번호판 인식 문제 (또는 번호판)에 대한 해결책을 검색하여 유용한 정보를 찾을 수 있습니다. 많은 번호판 (번호판)에는 인식을 방해 할 수있는 배경 이미지 또는 조명 아티팩트가 있습니다. 보다 일반적인 문제는 배경 제거입니다.

관련 문제