2016-10-19 3 views
3

TLDR; 버전 :Tesseract에 단어 목록을 제공하는 방법 (.NET 래퍼)

누구나 볼 수있는 .NET 래퍼를 사용하여 Tasseract에 대해 '바자'구성을 사용할 수 있습니까?

나는 그것이 내가 (단지 목록에서 일부 단어를 인식) 원하는 무엇을 확신하지만, 내가 '가능한 문자열의 아주 짧은 목록을 가지고 무엇을


을하지 않는 것 m 찾으려고 노력 중 (1-4 단어). 정팔 포체에 대한 문서 상태 :

는 전체 사전을 교체하려는 경우, 에게 .traineddata 파일의 압축을 풀고 새로운 단어 임마 파일을 만든 다음 가로 파일을 다시 포장해야합니다. 훈련 된 데이터 파일. 자세한 내용은 TrainingTesseract 을 참조하십시오.

내가 좋아하는 소리가 들립니다. 그래서 TrainingTesseract을보고 참조 :

traineddata 파일이 단순히 알려진 파일 유형의 오프셋을 포함 목차와 입력 파일의 연결, 입니다. 현재 허용 된 파일 이름 의 목록을 보려면 소스 코드의 ccutil/tessdatamanager.h를 참조하십시오.

우수. 그렇다면이 간단한 입력 파일 연결을 풀고 내용과 헤더를 수정 한 다음 다시 포장하는 방법은 무엇입니까?

하는의 당신이 영어 OCR한다고 가정 할 수 있지만, 정상 사전 억제 : 단순히 기본 사전을 해제하고 대신 사용자가 단어를 사용하는 것 - :

This post

는 같은 질문 것으로 보인다 대체 단어 목록과 대체 목록을로드하십시오. 패턴 -이 두 파일은 가장 일반적으로 사용되는 추가 데이터입니다 파일입니다.

언어 팩이 /path/to/eng.traineddata에 있으며 hocr 설정이에/경로라면// CONFIGS가/hocr 다음 세 개의 새로운 파일을 만들 수 있습니다 :

/경로/영어 /에 있습니다. 사용자 단어 :

/path/to/eng.user-patterns -snip : 당신이 단어를 통과하면 지금

을 -snip :

/경로 /에/CONFIGS/시장 -snip Tesseract의 후행 명령 줄 매개 변수 인 bazaar, Tesseract는 시스템 사전이나 잦은 단어 사전로드에 신경 쓰지 않으며 제공된 eng.user-words 및 eng.user-patterns 파일을로드하여 사용합니다. 전자는 한 줄에 하나씩 간단한 단어 목록입니다. 후자의 형식은 read_pattern_list()의 dict/trie.h에 문서화되어 있습니다.

하지만이 작업을 수행해도 전혀 차이가 없습니다!만든 갖는 (UTF-8, 유닉스 라인 엔딩) 파일 engine.config

using (engine = new TesseractEngine(@"C:\src\x\tessdata", "eng", EngineMode.Default, @"C:\src\x\tessdata\engine.config")) 

:

load_system_dawg  F 
load_freq_dawg  F 
user_words_suffix user-words 
user_patterns_suffix user-patterns 

그리고 생성 eng.user-패턴을

내가 가진 엔진을 만드는거야 eng.traineddata 옆에 eng.user-words (UTF-8, Unix 줄 끝) 파일이 있습니다.

+0

이것이 가능한지 궁금합니다. 누군가가 개발자가 아닌 Tesseract를 사용하고 있는지 궁금합니다. –

답변

0

이것을 알아 냈습니까?

https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-to-increase-the-trust-instrength-of-the-dictionary

어떻게 사전/강도의 신뢰를 높이기 위해 :

사전의 단어를 찾는의 선호도를 높일 수있는 방법이 여기 것 같은데? 용

정팔 포체-OCR < 3.01 딕셔너리/permute.cpp에 NON_WERD 및 GARBAGE_STRING을 올리는 시도 아마 3 정팔 포체-OCR 심지어 5

> = 3.01 구성에서 변수 language_model_penalty_non_freq_dict_word 및 language_model_penalty_non_dict_word 증가하려고 파일. 기본적으로 각각 0.1 및 0.15입니다.

+0

Nope. 결코 그것을 알아 내지 않았다. 내가 설정 한 것만 큼 아무런 차이가없는 것으로 나타났습니다 (단 몇 번 더 나 빠졌을 때 제외) –

관련 문제