OCR 응용 프로그램을 실행하는 일련의 이미지가 있습니다. 이 프로세스로 인해 문자 오프셋이있는 XML 파일이 생성됩니다. 그런 다음 Acrobat 9를 사용하여 이미지를 PDF로 변환합니다. 이제 검색 가능한 PDF를 얻으려면 XML 파일 정보를 보이지 않는 텍스트 레이어로 PDF에 추가하고 싶습니다. 쉽고 자유로운 방법이 있습니까?기존 OCR을 기존 PDF에 포함시키는 방법은 무엇입니까?
일부 세부 사항 : 나는 애크로뱃의 OCR 기능을 사용하지 않으
;
같은 요소가 포함 된 XML 파일의 OCR 처리 결과 :
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
업데이트 :은 내가 다른 방법으로 원하는 일을 할 수 있습니다. 이미 이미지 집합에서 생성 된 PDF 파일이 있고 OCRed 텍스트가 이미 포함되어 있다고 가정합니다. 각 페이지의 이미지에만 액세스 (프로그래밍 방식으로)하고 처리 (예 : 흑백으로 변환) 한 다음 PDF 파일로 다시 저장할 수 있습니까? 그렇다면 OCR 된 텍스트가 손실되지 않습니다.
는 [I은 별도의 질문에이 업데이트를 넣어해야합니까?]
당신이하지 않습니다 [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) 유용 –