2016-06-23 4 views
0

pdfminer를 사용하여 많은 PDF 파일에서 텍스트를 추출합니다. 일부 pdf 파일의 결과 텍스트 파일은 각 행이 한 문자 만 사용하는 경우 이상합니다. 일부 PDF 파일은 아니지만 일부 파일과 이유 및 어떤 PDF 파일에서이 문제가 발생하는지 알 수 없습니다.TEXT로 PDF가 잘못 변환되었습니다.

def convert_pdf_to_txt(path): 
    rsrcmgr = PDFResourceManager() 
    retstr = StringIO() 
    codec = 'utf-8' 
    laparams = LAParams() 

    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) 
    fp = file(path, 'rb') 
    interpreter = PDFPageInterpreter(rsrcmgr, device) 
    password = "" 
    maxpages = 0 
    caching = True 
    pagenos = set() 

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, 
            check_extractable=True): 
     interpreter.process_page(page) 

    text = retstr.getvalue() 

    fp.close() 
    device.close() 
    retstr.close() 
    return text 

그리고 this이 문제를 준 PDF 파일에 :

여기 내 코드입니다.

편집

나는 티카를 시도했지만 내가 장고를 사용하고 있기 때문에 관련 문제를 주었다.

The error I am getting

은 나를 위해 더 나은 결과를주고 사용 tika 당신에게

답변

0

대단히 감사합니다.

from tika import parser 
def pdf_parser_tika(file_pointer): 
     parsed = parser.from_file(file_pointer) 
     return parsed["content"] 
+0

네 감사합니다.^_^ –

+0

장고로 작성된 웹 사이트에서 사용하기 때문에 문제가 발생했습니다. –

+0

오류가 발생한 행은 무엇입니까? –

관련 문제