2014-12-03 4 views
0

저는 pdfMiner를 사용하여 그래프 값을 읽었으며 지금까지 잘 작동했습니다!python에서 pdfMiner를 사용하여 predicatbly 값을 읽는 방법

그러나 올바른 데이터가 올바르게 읽히지 만 예측할 수없는 방식으로 한 영역이 있습니다. 즉 모든 그래프 값을 표시된 순서와 완전히 다른 순서로 읽습니다.

내가 아는 한 마지막 그래프가 항상 먼저 읽혀 지므로 내 프로그램을 구조화 할 수 있기 때문에 이것은 완전히 문제가되지 않습니다. pdfMiner가이 데이터를 읽는 방식에서 거의 예측할 수없는 것으로 보이는 것 외에는 식별 할 수있는 패턴을 찾을 수 없습니다.

이것은 내가 pdfMiner에 익숙하지 않아서 대부분 어떻게 작동하는지 완전히 알지 못하기 때문에 발생했을 가능성이 큽니다. 그래서 somone이 올바른 방향으로 나를 가리킬 수 있다면 그것은 정말로 도움이 될 것입니다. 문서의 흐름을 따라 먼저 무엇을 알아낼

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from pdfminer.pdfpage import PDFPage 
from cStringIO import StringIO 
global values 

print "Getting readable PDF" 

rsrcmgr = PDFResourceManager() 
retstr = StringIO() 
codec = 'utf-8' 
laparams = LAParams() 
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) 
fp = file("graphExtraction.pdf", 'rb') 
interpreter = PDFPageInterpreter(rsrcmgr, device) 
password = "" 
maxpages = 0 
caching = True 
pagenos=set() 
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching,   check_extractable=True): 
    interpreter.process_page(page) 
fp.close() 
device.close() 
str = retstr.getvalue() 
retstr.close() 
values = str 

답변

0

사용하여 경계 상자 정보 :

Here 내 데이터 여기

그리고 내가 사용하고 변환 코드입니다.

관련 문제