2012-01-28 3 views
3

나는 Tesseract에서 작동하도록 Lincoln 글꼴을 얻으려고 노력하고 있으며, 심지어 wildly complicated training process을 통과 한 후에도 심한 결과를 얻고 있습니다.Tesseract OCR 엔진에 Blackletter 글꼴 지원 추가

이 글꼴은 그래서 그래, 그것은 조금 까다로운, 모습입니다 :

Lincoln sample

나는 조심스럽게 훈련 이미지를 만든 다음 상자 파일을 만들기 위해 그것을 사용했습니다. The training image is here (25MB!). 이미지는 300 DPI이며, 대표적인 문자가 수직 및 수평으로 잘 배치되어 있습니다.

트레이닝 이미지 용 상자 파일을 만들었고 제대로 작동했습니다. a box file editor을 사용하여 올바른지 확인했습니다.

이 상자 파일/tif 파일을 가져 와서 교육 데이터를 만드는 데 사용했습니다. 나는 Tesseract가 제공 한 30 or so other sample images/fonts도 마찬가지였다.

나는 unicharset 파일을 만들었습니다.

font_properties 파일을 만들었습니다. fraktur를 사용해야하는시기에 대해서는 사이트에 대한 지침이 없습니다.

eng.lincoln.box 0 0 0 0 1 

을 그리고이 방법 (프랑크푸르트 체 OFF) :

eng.lincoln.box 0 0 0 0 0 

그리고 마지막으로, 내가 함께하고 사전없이 시도했다 그래서 나는이 방법 (링컨 동안 프랑크푸르트 체) 모두를 시도했습니다 파일. 사전 파일을 사용했을 때 검색 엔진 인 스핑크스의 단어 맵이었으며 일반적인 단어는 약 15K 개, 희귀 한 단어는 약 20K 개였습니다.

모든 경우에 OCR 처음 두 줄의 this file (3MB)을 시도 할 때 품질은 최악입니다. 오히려 얻는 것보다 :

United States Court of Appeals 
for the Federal Circuit 

를 내가 얻을 :

OniteiJ %tates C0urt of QppeaIs 
for the jfeI1eraICircuit 

이유는 무엇입니까?

답변

1

더 많은 샘플 (글자)과 교육용 이미지 (깨끗한 배경, 회색 명암, 300 DPI 등)가 필요합니다. 그리고 단 하나의 글꼴 (예 : 링컨) 만 사용하여 교육을 시도하십시오. jTessBoxEditor 도구를 사용하여 교육 이미지를 생성하고 상자 파일을 편집 할 수 있습니다.

교육 과정을 마스터하면 교육에 다른 글꼴을 추가 할 수 있습니다. 학습 이미지 자체에서 OCR을 수행하는 데 사용하여 결과 언어 데이터의 성공 여부를 테스트 할 수 있습니다. 인식률이 높아야합니다. 결국

링컨 0 0 0 0 1

+1

, 내가 큰 교육 파일을 만들어이 일 때까지 반복 훈련 과정을 반복 : font_properties에서

글꼴 이름이 같아야합니다. 도와 주셔서 감사합니다. – mlissner

1

나는 Tesseract 전문가가 아니지만 거의 모든 OCR 엔진을 평가했으며 내 의견은 오랫동안 OCR 오류를 분석 한 경험을 토대로 한 것입니다.

왜 이미지에 얼룩이 있지만 순수한 흰색 배경이 아닌지 궁금합니다. 나는 Tesseract 또는 훈련 도구가 어떻게 작동하는지 모르지만 배경이 약간의 문제를 일으킬 수 있습니다.

샘플 페이지를 읽는 것만으로는 어렵고 많은 양의 농도가 필요합니다. F 및 I와 같은 문자는 U 및 N과 매우 유사합니다. 많은 OCR 엔진과 같은 Tesseract는 문자를 인식하는 데 여러 가지 기술을 사용하며 여러 문자간에 획 및 곡선 측면에서 많은 차이가 없습니다 글꼴에 사용됩니다.

이러한 문자, 특히 대문자는 표준 라틴/로마 문자 유형과 매우 다른 여러 가지 다른 알고리즘을 혼동합니다. 즉 귀하의 검색 결과에 표시됩니다. 모든 대문자에는 OCR 오류가 있습니다.

관련 문제