2010-11-20 5 views
1

이미지에서 특정 글꼴 세트를 생성 할 수 있습니까?텍스트 이미지에서 글꼴 생성

내 생각 이것을 사용해서 수동 이미지의 부분을 선택하고이 위한 letter's.Generate 폰트 세트로 매핑 하여, 텍스트 아래 이미지 특정 폰트 를 생성하는 OCR을 위해 을 읽을 수있는 글꼴. 구현을 사용하여 글꼴을 생성 할 수 있습니까? 또한 좋은 OCR의 을 제안하십시오.

alt text

+0

@downvoter : 설명해주십시오. – Emil

+0

나는 y와 g에있는 그 자손들이 대부분의 OCR 프로그램을 혼란스럽게 할 것이라고 생각한다. –

+0

@jcomeau_ictx : 좋은 OCR을 사용 했습니까? – Emil

답변

1

ABBYY FineReader의 (10)는 예상 된 결과보다 더 얻을 수 있지만 예상 문자를 터치하면 혼란을 가져옵니다.

문제는 줄 간격이 너무 좁습니다. 각 행의 디 센더는 문자 바로 아래에있는 행의 문자 경계 상자와 겹칩니다. 문자가 닿아 중첩되어 문자 분할이 거의 불가능합니다. 겹치는 문자의 조합 수는 실제로 훈련 할 수 없습니다. 'g'와 'y'문자는 최악의 범죄자입니다.

두 줄로 된이 버전은 아마도 OCR이 적절할 것입니다.

좋은 사전과 함께 각 행을 분할하고 구분하는 사용자 지정 솔루션은 결과를 확실히 향상시킬 것입니다. 수동으로 수정하는 데 몇 가지 오류가 여전히 남아 있습니다. 커스텀 루틴은 오름차순 및 디 센더를 처리하고 이미지를 선으로 분할 한 다음 괜찮은 OCR 엔진에 공급할 수 있어야합니다. 한 가지 방법은 페이지의 모든 문자 BLOB를 분석하여이를 라인에 할당하는 것입니다. Leptonica (www.leptonica.com - C 이미징 라이브러리)는이 일을 좀 더 쉽게 만들어 줄 것입니다.

먼저 해상도를 200 또는 300dpi로 높이 지 않으면이 방법을 사용하지 않을 것입니다.

OCR 엔진의 초기 작업이 불량한 경우이 사용자 지정 솔루션을 사용하면 글꼴을 교육하는 것이 옵션이됩니다.

Abbyy (www.abbyy.com) 또는 Google Tesseract OCR 3.00을 시작하는 것이 좋습니다.

이 모든 것이 작동하는지에 대한 보장은 없습니다. 이것은 OCR에서 상당히 어려운 페이지이며 해외에서 수동으로 타이핑하는 것이 더 나은지 여부를 알아 내야합니다. 처리해야 할 페이지 수에 따라 다릅니다.

관련 문제