2012-09-05 4 views
10

tesseract에서 GetHOCRText (0) 메소드 사용 HTML에서 텍스트를 검색 할 수 있고 webview에서 HTML을 표시 할 수 있지만 텍스트는 가져올 수 있지만 텍스트의 위치는 가져올 수 있습니다. 이미지와 출력이 다릅니다. 어떤 아이디어라도 도움이됩니다.tesseract의 이미지에서 텍스트의 정확한 위치를 얻습니다.

This the image i'm using for tesseract

tesseract->SetInputName("word"); 
tesseract->SetOutputName("xyz"); 
tesseract->Recognize(NULL); 


char *utf8Text=tesseract->GetHOCRText(0); 
출력 화상 enter image description here

+0

위치 인식에 성공 했습니까? –

답변

1

GetBoxText() 방법은 어레이의 각 글자의 정확한 위치를 반환한다.

char *boxtext = _tesseract->GetBoxText(0); 
NSString* aBoxText = [NSString stringWithUTF8String:boxtext]; 
+0

신속하게 처리하려면 어떻게해야합니까?! – Husam

1

hocr 출력이있는 경우 각 단어에 대한 태그가 있어야합니다. 이러한 태그에는 class = "ocrx_word"및 name = "bbox x1 y1 x2 y2"가 있어야합니다. 여기서 x 및 y는 단어 주위의 경계 상자 왼쪽 위 및 오른쪽 하단 모서리입니다. 필자는이 정보를 자동으로 텍스트 문서 형식으로 사용할 수 있다고 생각하지 않습니다. 픽셀 차이를 탭 수/공백 수로 변환해야합니다. 그러나 주어진 위치에 텍스트를 렌더링 할 수 있어야합니다.

관련 문제