2017-01-31 1 views
0

OCR 처리 된 PDF 파일이 여러 개 있습니다. 여기에는 스캔 한 이미지와 OCR 텍스트가 모두 들어 있습니다. 일부 시청자 (iPhone/iPad)에서는 제대로 작동하지만 다른 사용자에게는 읽기가 다소 어색한 (MacOS의 경우 Preview.app) 것은 아닙니다.OCR 텍스트가 표시된 PDF, 기존 PDF에서 숨기는 방법

Google 검색 결과에서 & 텍스트가 잘못 레이어되었거나 사용 된 글꼴에 문제가있는 것 같습니다. 나는 내가 얻는 대부분의 히트가 쓸모 없기 때문에 정확한 어휘를 사용하고 있는지조차 확신하지 못한다.

고스트 스크립트 등을 사용하여 이러한 파일을 일괄 처리 할 수 ​​있습니까? "나쁜"렌더링

예 : example

답변

3

그것의 해결책을 제시하기가 어려워 질합니다 alse있는 PDF 파일을보기없이 PDF 파일 (또는 뷰어) 잘못 무슨 말을하는 것은 불가능!

Ghostscript를 통해 pdfwrite 장치로 파일을 실행할 수 있으며 -dFILTERTEXT 스위치를 사용하여 텍스트를 처리 할 수 ​​없습니다. 따라서 결과 문서에는 불쾌감을주는 텍스트가 포함되지 않지만 여전히 이미지가 포함됩니다.

물론 검색 또는 강조 표시 할 수 없습니다.

-dFILTERIMAGE를 사용하여 원본 이미지를 제거하고 텍스트를 남겨 둘 수 있습니다. 그러나 텍스트가 아닌 원본 문서의 내용은 이제 사라집니다.

일반적으로 '모범 사례'는 렌더링 모드 3에서 텍스트를 그려야 표시가 나타나지 않습니다. 이렇게하면 OCR의 텍스트가 간섭하지 않고 원본 이미지를 볼 수 있습니다. 당신이 사용하고있는 뷰어가 텍스트 렌더링 모드를 존중하지 않을 가능성이 있습니다. 이것은 뷰어에서 (상당히 심각한) 버그입니다. 가장 최신 버전의 MacOS는 Quartz PDF 렌더링 엔진에 불쾌한 버그가있는 것으로 보입니다.

다른 방법은 텍스트를 먼저 그려 넣고 원본 이미지를 그 위에 놓는 것이지만 잘못 입력하기는 어렵습니다. 텍스트 렌더링 모드가 더 가능성이 있습니다.

편집 PDF 파일은 먼저 텍스트를 그려 텍스트 위에 이미지를 그립니다. 기본 텍스트가 나타나면 안됩니다. mkl은 그의 코멘트에서 꽤 정확합니다.

이 문제를 수정하는 올바른 방법은 잘못 렌더링 한 소비자를 수정하는 것입니다. 위에서 언급했듯이, Quartz의 최신 버전은 상당히 심각한 버그를 가지고있는 것으로 보이며, 이것을 Apple에 버그로 제기 할 수도 있습니다.

다른 해결책은 텍스트를 제거하는 무언가를 통해이를 실행하는 것입니다. Ghostscript는이 작업을 수행 할 수 있지만 의미가 있습니다. 먼저 문서에서 텍스트를 검색/복사/붙여 넣기하는 것이 더 이상 가능하지 않습니다. 둘째로 압축 해제 된 JPX 이미지가 JPEG로 재 압축되지 않도록하기 위해 상당히 복잡한 명령 줄을 실행해야합니다. 이렇게하면 품질이 손상 될 수 있습니다. 마지막으로 결과 파일 크기가 커집니다.

+0

답장을 보내 주셔서 감사합니다. 스크린 샷을 찍은 PDF는 [here] (http://dis-danmark.dk/bibliotek/905046.pdf)에서 구할 수 있습니다. 텍스트에 어떤 렌더링 모드가 사용되는지 확인하기 위해 PDF를 검사하는 데 사용할 수있는 도구가 있습니까? – meide

+0

ABBYY FineReader 12 (파일을 만드는 데 사용됨)는 이미지/텍스트 레이어 방법을 사용합니다. 프로그래밍 방식으로 재 배열 할 수 있습니까? – meide

+0

필자는 PDF 변경이 실제로 도움이 될지 의심 스럽습니다. 주어진 PDF에서 글을 보여주는 PDF 뷰어는 심각하게 손상되어 있으며, 심각하게 손상된 소프트웨어에서 이러한 문제를 해결하기 위해 프로그램을 작성하는 것은 대개 느슨한 전투입니다. – mkl

관련 문제