2016-06-26 2 views
0

Tesseract를 트레이딩하는 데 멀티 페이지 티프를 사용하면 어떻게 보이게 할 수 있습니까?Tesseract를 이용한 Tesseract 트레이닝

더 정확하게 : 상자 파일의 Y 좌표가 페이지 내의 Y 좌표와 어떻게 일치합니까?

답변

1

상자 파일의 마지막 6 번째 열은 0부터 시작하는 페이지 번호를 나타냅니다.

https://github.com/tesseract-ocr/tesseract/wiki/Make-Box-Files

업데이트 :

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

각 글꼴은 하나의 멀티 페이지 TIFF 및 상자 파일에 넣어해야 각 문자의 페이지 번호를 지정하도록 수정 될 수있다 이후 좌표. 따라서 임의의 주어진 폰트에 대해 임의로 많은 양의 학습 데이터가 생성되어 문자 집합 언어에 대해 학습 할 수 있습니다.

큰 교육용 텍스트를 원하는대로 만들 수 있더라도 이미지가 불필요하게 커져서 교육 속도가 느려질 수 있습니다.

+0

감사합니다. 나는 그것을 놓쳐 버린 것 같습니다. Tesseract가 지원하는 최대 페이지 수를 아십니까? – Tim

관련 문제