2009-09-28 4 views
6

OCR 응용 프로그램을 실행하는 일련의 이미지가 있습니다. 이 프로세스로 인해 문자 오프셋이있는 XML 파일이 생성됩니다. 그런 다음 Acrobat 9를 사용하여 이미지를 PDF로 변환합니다. 이제 검색 가능한 PDF를 얻으려면 XML 파일 정보를 보이지 않는 텍스트 레이어로 PDF에 추가하고 싶습니다. 쉽고 자유로운 방법이 있습니까?기존 OCR을 기존 PDF에 포함시키는 방법은 무엇입니까?

일부 세부 사항 : 나는 애크로뱃의 OCR 기능을 사용하지 않으

  • ;

  • 같은 요소가 포함 된 XML 파일의 OCR 처리 결과 :

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

업데이트 :은 내가 다른 방법으로 원하는 일을 할 수 있습니다. 이미 이미지 집합에서 생성 된 PDF 파일이 있고 OCRed 텍스트가 이미 포함되어 있다고 가정합니다. 각 페이지의 이미지에만 액세스 (프로그래밍 방식으로)하고 처리 (예 : 흑백으로 변환) 한 다음 PDF 파일로 다시 저장할 수 있습니까? 그렇다면 OCR 된 텍스트가 손실되지 않습니다.

는 [I은 별도의 질문에이 업데이트를 넣어해야합니까?]

+0

당신이하지 않습니다 [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) 유용 –

답변

1

숨겨진 레이어를 잃지 않고 PDF 파일 처리에 대한 후속 질문 : Ghostscript이이를 수행 할 수 있다고 생각합니다. 예를 들어, 다음 명령은 그레이 스케일로 PDF를 변환해야합니다 :

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

니스, 효과가있었습니다. 그러나 출력은 내가 원하는만큼 깨끗하지 못합니다. ImageMagick이 텍스트 레이어를 잃지 않고 PDF를 변환 할 수 있다면 다음과 같이 각 페이지를 처리하고 싶습니다. \\ (-white-threshold 50 % \\) - 모노크롬 변환 ... 아마도 말하는 방법이 있습니다. DaveParillo가 말했듯이 메신저로 GS를 사용하는 방법. 나는 나중에 이것을 점검 할 것이다. – kepler

-1

그레이 스케일로 기존 PDF로 변환 할 일은 원하는 모든이, Imagemagick을 시도 할 경우 :

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

난 몰라 이것이 당신의 pdf에있는 다른 속성을 바꿀 것이라고 생각하십시오.

+0

찾을 수 있습니다 PDF에서 숨겨진 텍스트 레이어를 유지하는 것 같습니다. (ImageMagick 6.4.5로 시도했습니다.) –

+0

imagemagick이 고스트 스크립트를 사용하여 이미지 변환을 수행 했으므로 ... – DaveParillo

+0

또한 시도해 보았습니다. 또한 텍스트 레이어를 잃어 버렸습니다. 나는 ImageMagick 6.4.5도 사용했다. – kepler

관련 문제