2014-01-12 1 views
0

Google 애플리케이션 엔진을 통해 업로드 된 PDF 파일에서 text 및 documentInfo를 추출 할 수있는 방법이 있습니까? 나는 PyPDF2를 사용하려면, 내 코드는 이것이다 : 그것은 심지어 성공적으로 파일에서 읽을 수 있습니다 사람들을 위해, 모든 파일이 오류를 제공PyPDF2를 사용하여 Google App Engine에 업로드 된 PDF에서 텍스트를 추출하는 방법은 무엇입니까?

Traceback (most recent call last): 
.... 
    File "/myrepo/myproj/main.py", line 154, in post 
    pdf_text = pypdf.PdfFileReader(pdf_file) 
    File "lib/PyPDF2/pdf.py", line 649, in __init__ 
    self.read(stream) 
    File "lib/PyPDF2/pdf.py", line 1100, in read 
    raise utils.PdfReadError, "EOF marker not found" 
PdfReadError: EOF marker not found 

이 나에게 오류를 제공

pdf_file = self.request.POST['file'].file 
pdf_reader = pypdf.PdfFileReader(pdf_file) 

디스크를 통해 open(filename, 'r')

내가 뭔가를 놓치고 있습니까? 미리 감사드립니다!

답변

1

용액을 사용하는 것이다 get_uploadsblobstore_handlers.BlobstoreUploadHandler에서 :

from google.appengine.ext.webapp import blobstore_handlers 
from cStringIO import StringIO 
import PyPDF2 

class UploadHandler(blobstore_handlers.BlobstoreUploadHandler): 
    def post(self): 
     upload_files = self.get_uploads('file') 
     blob_info = upload_files[0] 
     blob_reader = blobstore.BlobReader(blob_info) 
     blob_content = StringIO(blob_reader.read()) 
     pdf_info = PyPDF2.PdfFileReader(blob_content) 
관련 문제