2012-03-05 6 views
10

현재 tesseract OCR을 사용하여 android 프로젝트를 진행 중입니다. 나는 사전을 추가하여 사용자에게 주어진 결과를 미세 조정하기를 바랬다. , UTF8 텍스트 줄에 한 단어 - http://code.google.com/p/tesseract-ocr/wiki/FAQ에 따르면, 이것에 대해 이동하는 가장 좋은 방법은Tesseract 사용자 지정 사전

이 같은 형식으로 자신의 단어 목록에 tessdata/eng.user-단어를 교체하는 것입니다.

그러나 더 eng.user-단어가 tessdata 폴더에 파일이 없습니다가, 나는

가 사람을 가지고 .. 난 그냥 내 사전 텍스트 파일을 만들 경우, 사용하지 않을 것이라고 가정 비슷한 경험을했고 무엇을 해야할지 알고 있습니까? 어떤 충고라도 큰 도움이 될 것입니다.

답변

9

당신이 tesseract 3을 사용한다면 (나는 당신이라고 생각합니다). eng.trainddata 파일을 다시 만들어야합니다. 더 나은 결과를 얻으려고 단어 도크 파일을 완전히 대체하려고했습니다 (예 : 발견 한 단어가 항상 동일 함).

tesseract를 컴파일 할 때 훈련 디렉토리에서 combine_tessdata 및 wordlist2dawg 실행 파일이 필요합니다.

  1. 의 포장을 풀고 모든 것을 (내가 이런 짓을 그냥 내 eng.word - 임마을 백업, 당신은 또한 unicharset 나중에 필요합니다)

    ./combine_tessdata -u eng.traineddata

  2. 가 eng.word - 임마을 생성 (wordlistfile) 당신의 단어 목록의 TEXTFILE을 만들

    ./wordlist2dawg wordlistfile eng.word - 임마의 traineddat_backup/.unicharset

  3. 워드 임마 파일을 대체

    ./combine_tessdata -o eng.traineddata eng.word - 임마

해야합니다.

+1

나는이 3 단계를 실행하려고하지만 '에서 unicharset로드 할 수 없습니다 'traineddat_backup/.unicharset '에서이 오류 '로드 unicharset을 데 traineddat_backup/.unicharset'' 을 친절하게 내가 그것을 할 노력하고 있어요 도와주세요 우분투 12.04 및 tesseract 3.02. –

+0

@MuhammadMuaz :'traineddat_backup/.unicharset'는 1st cmd 출력의 폴더 경로입니다. 첫 번째 cmd가'./combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita '인 경우 세 번째는'./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita'입니다. unicharset'. 그것이 도움이되기를 바란다. 나는 30 분을 버린다. – Tenaciousd93

관련 문제