힌디어 언어에 대한 내 tesseract를 훈련하고 싶습니다. 나는 특정 글꼴로 된 많은 '힌디어'텍스트 이미지를 가지고 있으며 그 이미지들에 대해 tesseract ocr을 교육하고 싶습니다. 몇 번이나이 링크를 사용하여 tesseract를 시도했습니다. https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3. makebox 명령을 실행하면 상자 파일이 추출되지만 영어 문자처럼 인식됩니다. 나는 이것이 왜 일어나는 지 이해하지 못한다. 힌디어로 tesseract ocr을 훈련시키는 것을 도와주세요. 다음 링크에서 샘플 이미지를 확인할 수 있습니다. sample file힌디어 언어 tesseract
0
A
답변
0
저는 몇 자의 캐릭터 세트를 훈련시키고 싶었고, 먼저 정보를 수집했습니다. 어쩌면이 정보는 당신에게도 유용 할 것입니다.
은이 문서를 읽었다 : 문자 중 어느 것도 인식되지 않는 경우
http://blog.cedric.ws/how-to-train-tesseract-301
당신이 모든 문자를 양성하는 것입니다, 난 두려워. 그러나 중요한 단계가 될 것 같다 :
- 가 makebox 명령 줄에서 언어 ('ENG')의 표시를 포함 (이것은 아마도 귀하의 경우 '힌'을 것
을 인식. 정팔 포체의 버전. 내가 훈련 과정은 지난 버전에서 변경되었다는 인상을 가지고있다.의
0
샘플 프로그램은 이미지에서 Hindi
문자를 인식하고 각각의 경계 상자 값과 각각의 힌디어 문자를 저장 ~에 저장하다 ne 파일.
/*
* Char_OCR.cpp
*
* Created on: Jun 23, 2016
* Author: pratik
*/
#include <opencv2/opencv.hpp>
#include <tesseract/baseapi.h>
#include <leptonica/allheaders.h>
#include <iostream>
#include <fstream>
using namespace std;
using namespace cv;
void dumpIntoFile(const char *ocrResult , ofstream &myfile1 ,int x1, int y1,
int x2, int y2, int &);
int main(int argc ,char **argv)
{
Pix *image = pixRead(argv[1]);
if (image == 0) {
cout << "Cannot load input file!\n";
}
tesseract::TessBaseAPI tess;
if (tess.Init("/usr/share/tesseract/tessdata", "hin")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
tess.SetImage(image);
tess.Recognize(0);
tesseract::ResultIterator *ri = tess.GetIterator();
tesseract::PageIteratorLevel level = tesseract::RIL_SYMBOL;
cout << ri << endl;
ofstream myfile1("Word.txt");
myfile1 << "ID" << '\t' << "CORD_X" << '\t' << "CORD_Y" << '\t' <<
"CORD_W" << '\t' << "CORD_H" << '\t' << "STRING" << endl;
int i=1;
if(ri!=0)
{
do {
const char *word = ri->GetUTF8Text(level);
// cout << word << endl;
//float conf = ri->Confidence(level);
int x1, y1, x2, y2;
ri->BoundingBox(level, &x1, &y1, &x2, &y2);
dumpIntoFile(word, myfile1, x1, y1, x2, y2, i);
delete []word;
} while (ri->Next(level));
delete []ri;
}
}
void dumpIntoFile(const char *ocrResult , ofstream &myfile1 ,int x1, int y1,
int x2, int y2,int &i)
{
int length = strlen(ocrResult);
myfile1 << i++ << '\t' << x1 << '\t' << y1 << '\t' <<
x2 << '\t' << y2 << '\t' ;
//cout << "in the string (" << length << ") ::";
for(int j = 0; j < length && ocrResult[j] != '\n'; j++)
{
myfile1 << ocrResult[j];
}
myfile1 << endl;
}
관련 문제
- 1. 자바에서 힌디어 언어 처리하기
- 2. Tesseract 용 언어 파일 작성
- 3. Ruby 인쇄 텍스트, 힌디어, 산스크리트어 등의 언어
- 4. 데이터베이스에 힌디어 (다른 언어) 문자를 삽입하는 방법
- 5. 안드로이드에서 힌디어 사용하기
- 6. struts 웹 응용 프로그램에 힌디어 언어 지원을 추가하는 방법
- 7. 마이크로 소프트 스피치 SDK에 힌디어 또는 카나다 언어 사용
- 8. windows7에서 힌디어 콘텐츠를 표시하는 방법?
- 9. Tesseract OCR의 새로운 언어 교육에 사용할 데이터의 종류
- 10. tesseract ocr 엔진의 언어 파일을 Android 앱에 넣을 곳은 어디입니까?
- 11. 안드로이드 phonegap 응용 프로그램 언어 (인도 언어 힌디어) 글꼴이 안드로이드 에뮬레이터에서 작동하지만 실제 장치에서 작동하지 않습니다.
- 12. 힌디어 유니 코드 휴대폰에서 지원
- 13. (말라얄람어 같은, 힌디어 ..) a.php에 페이지
- 14. Tesseract and Tess4J
- 15. Tesseract Ocr Engine 큐브 모드 - 교육 Tesseract
- 16. Tesseract 초기화
- 17. 이미지에서 Java 코드 추출 (tesseract?)
- 18. 힌디어 텍스트가 올바르게 표시되지 않습니다.
- 19. 힌디어 키보드를 얻는 방법/안드로이드에서 프로그래밍 방식으로 힌디어 텍스트로 번역하기
- 20. MS Word 힌디어 차트
- 21. 힌디어 프로그래밍에 대한 도움말
- 22. 힌디어 정보 저장
- 23. 힌디어 언어는 TCPDF
- 24. 힌디어 문자 PDF/A
- 25. 유니티 에디터의 힌디어 문자들
- 26. DEVNAGRI (힌디어) MySQL의
- 27. 힌디어 글꼴이 물음표로 표시됩니다.
- 28. 힌디어 및 고급 텍스트
- 29. 데이터베이스에서 힌디어 문자를 검색합니다
- 30. JSP로 힌디어 글꼴 표시
이보다 더 정확하게하려면 pixeRead()에 OTSU 임계 값 이미지를 전달할 수 있습니다. pixRead()에서 정상적인 이미지를 전달 중입니다. OTSU 통과 임계 값 이미지. 나는 그것을위한 알고리즘을 개발했다. . 아무도 원하면 알려줘. –