데이터를 추출하는 데 VERY HACKY 방법이 있지만 8.51 또는 8.62와 같은 이전 버전의 고스트 스크립트에서만 작동합니다. 이전 버전의 ghostscript에서 PDF 명령은 /lib/pdf_ops.ps에 정의되어 있습니다. 새 버전은 다른 작업을 수행합니다.
버전 8.62의 테스트 버전을 사용할 수 있습니다.
http://sourceforge.net/projects/ghostscript/files/GPL%20Ghostscript/8.62/gs862w32.exe/download
당신이 후에있는 텍스트는 각 정의의 시작 부분에 dup ==
을 추가하여 /Tj {} def
및 /TJ {} def
를 사용하여 인쇄됩니다. (이것은 좀더 정교해질 수 있습니다.) 폰트 경고 메시지에 대해 걱정할 필요도 없었지만, 데이터가 파일에 쓰여지는 경우 필터링되지 않았습니다.
커닝이 완료되고 있기 때문에 일부 단어는 조각과 개별 문자로 나뉩니다. 시간이 주어진다면, 이것도 걸러 낼 수 있습니다.
는 pdf_ops.ps
발/TJ
/TJ { dup ==
0 0 moveto {
dup type /stringtype eq {
Show
} { -1000 div
currentfont /ScaleMatrix .knownget { 0 get mul } if
0 Vexch rmoveto
} ifelse
} forall settextposition
} bdef
출력
(Help a neighbor within your county each month by contributing to The Salvation)
(Army's Project SHARE and Georgia Power will match your gift. To help, simply check)
($1, $2, $5, or $10 on the return portion of this bill. Starting next month, your pledge)
(amount will be included on your monthly bill.)
(Our business offices will be closed on December 24 and 25 for Christmas and January)
(1 for New Year's Day. In case of an emergency, please call us at the number on your)
(bill 24 hours a day, 7 days a week.)
(PLEASE KEEP THIS PORTION FOR YOUR RECORDS.)
(PLEASE RETURN THIS PORTION WITH YOUR PAYMENT, MAKING SURE THE RETURN ADDRESS SHOWS IN THE ENVELOPE WINDOW.)
(Account Number)
(Mail To:)
변성
bdef pdf_ops.ps /TJ {DUP == 0 0의 moveTo 쇼 settextposition }에서 TJ/수정
포스트 스크립트 재미 아닌가요?
안녕하세요, pdf에서 이미지를 제거하여 pdf가 텍스트로만 구성되도록 시도해 보셨나요? 나는 그것을 할 길을 찾고있다. ghostScript 또는 다른 cli 도구를 사용하는 해결책이 있습니까? 친절하게 도와주세요. – codin