2010-05-26 2 views
1

나는 ImageMagick과 ghostscript를 사용하여 png로 OCR 된 PDf를 변환하는 프로젝트를 진행 중이며 브라우저에 표시하여 이미지에서 단어를 사용자 쿼리 할 수 ​​있도록합니다. Imagemagick은 고스트 스크립트와 함께 잘 작동합니다.postscript to text

ps2text 유틸리티에 문제가있어 pdf에서 제대로 작동하지 않습니다. 누구든지 포스트 스크립트를 Linux의 텍스트로 변환하여 DB에 저장할 수있는 좋은 유틸리티를 제안 할 수 있습니다. 그 후 나는 커스텀 서치 검색 클래스를 사용하여 각 단어의 좌표를 찾아 브라우저의 텍스트를 강조 표시합니다.

감사

답변

0

후기를 들어, ps2text를 사용해야합니다. PDF의 경우 pdftotext를 사용할 수 있습니다.