tesseract ocr을 사용하여 이미지에서 텍스트를 추출합니다. 문서의 구조를 보존하는 것은 나에게 매우 중요합니다. 현재 tesseract는 구조체를 보존하지 않으며, 실제로 텍스트의 순서를 변경합니다. 내 입력은 아래 이미지입니다.tesseract에서 문서 구조를 보존하는 방법
다음과 같이 내가 무엇입니까 출력은 다음과 같습니다
Someto the left
Someto the left
Some in the middle
Some in the middle
Some with some tab
Some with some tab
Some with some space between them
Some with some space between them
Sometext here
Sometext here
this much
this much
을 어떻게 이미지에서 동일한 구조의로 원하는 출력을 얻을 수 있습니까?
즉 다음과 같이
Some text here
Some text here
Some to the left
Some to the left
Some in the middle
Some in the middle
Some with some tab
Some with some tab
Some with some space between them this much
Some with some space between them this much
감사합니다 ... 작동합니다! 우분투 14.04에서는 여전히 컴파일에 어려움이 있습니다. –
tess4j에서이를 노출하는 API가 있습니까? –