샘플 또는 hocr 형식의 파일 예제는 어디에서 찾을 수 있습니까? (OCR에서 추출한 텍스트가 페이지 좌표와 함께 저장되는 형식)HOCR 파일의 샘플은 어디에서 찾을 수 있습니까?
Google에서는 찾고 있지만 샘플은 찾을 수 없습니다.
감사합니다.
샘플 또는 hocr 형식의 파일 예제는 어디에서 찾을 수 있습니까? (OCR에서 추출한 텍스트가 페이지 좌표와 함께 저장되는 형식)HOCR 파일의 샘플은 어디에서 찾을 수 있습니까?
Google에서는 찾고 있지만 샘플은 찾을 수 없습니다.
감사합니다.
다음은 가독성을 위해 몇 줄 바꿈이 추가 된 hOCR 파일의 일부입니다. 불행히도, 나는 그것을 생성하는 데 사용 된 툴 (아마도 ocropus)을 기억하지 못했지만, tesseract 3.01 및 다른 사람들은 hOCR 출력의 각 문자 대신 각 단어의 경계 상자를 정의했다고 생각합니다.
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>
</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
</head>
<body>
<p>
<span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span>
</p>
<p>
<span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span>
</p>
</body>
</html>
당신은 hocr 형식으로 출력 결과에 Tesseract의 명령 줄 옵션 "hocr"사용할 수 있습니다
tesseract youimage.tif out hocr
을