0
pdfminer를 사용하여 많은 PDF 파일에서 텍스트를 추출합니다. 일부 pdf 파일의 결과 텍스트 파일은 각 행이 한 문자 만 사용하는 경우 이상합니다. 일부 PDF 파일은 아니지만 일부 파일과 이유 및 어떤 PDF 파일에서이 문제가 발생하는지 알 수 없습니다.TEXT로 PDF가 잘못 변환되었습니다.
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos = set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching,
check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
그리고 this이 문제를 준 PDF 파일에 :
여기 내 코드입니다.
편집
나는 티카를 시도했지만 내가 장고를 사용하고 있기 때문에 관련 문제를 주었다.
은 나를 위해 더 나은 결과를주고 사용 tika
당신에게
네 감사합니다.^_^ –
장고로 작성된 웹 사이트에서 사용하기 때문에 문제가 발생했습니다. –
오류가 발생한 행은 무엇입니까? –