0
웹 페이지에 포함 된 PDF에서 텍스트를 추출하려고합니다. pdf-reader gem을 사용해 보았지만 구문 분석 오류가 발생합니다.포함 된 PDF (Ruby)에서 데이터를 추출 할 수 없습니다.
`find_first_xref_offset': PDF does not contain EOF marker (PDF::Reader::MalformedPDFError)
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/xref.rb:99:in `load_offsets'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/xref.rb:60:in `initialize'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/object_hash.rb:44:in `new'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader/object_hash.rb:44:in `initialize'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader.rb:117:in `new'
from /opt/boxen/rbenv/versions/2.0.0-p247/lib/ruby/gems/2.0.0/gems/pdf-reader-1.3.3/lib/pdf/reader.rb:117:in `initialize'
from role.rb:5:in `new'
from role.rb:5:in `<main>'
사람은 내가이 문제를 해결할 수있는 방법을 알아? 이 목적을위한 더 나은 보석이 있습니까?
감사합니다.
나는 여전히 같은 문제가 있습니다. URL에 직접 파일에 액세스 해 보았습니다. PDF를 다운로드하여 로컬에서 읽을 수있었습니다. [이것은 파일입니다] (http://www.tesoreria.cl/portal/portlets/imprimirAR/printAR.do?rutrol=32807514010&t=C&formulario=30&folio=3287514413&vcto=2013-11-30) – felipecamposclarke