2011-03-02 3 views
10

OCR을 사용하여 간단한 텍스트에서 굵게 및 기울임 꼴 단어를 추출하는 데 관심이 있습니다. 예를 들어, 내가 입력과 같이 텍스트와 선명한 이미지 ". 게으른 개 이상 점프 빠른 갈색 여우"OCR을 사용하여 글꼴 스타일 (굵게, 기울임 꼴)을 감지 할 수 있습니까?

내가 지금과 같은 출력을 좀하고 싶습니다 : 굵게, ("점프", "갈색") 이탤릭 ("게으른") 나는 OC 로퍼 또는 정팔 포체와 함께이 일에 보았다

하지만이 문서입니다 가난하고 그것이 가능하다면 그것을 말할 수 없다.

답변

9

Tesseract 3.0.1에는 트렁크와 같은 기능이 있습니다. 새로운 클래스가 API에 추가 - ResultIterator, 관심있는 다음과 같은 기능이 있습니다

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id). 

을 사실 당신은 정팔 포체 3.0의 XML 기반 hOCR 형식이 포함 here.

+0

새로운 URL : https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –

관련 문제