2012-09-26 3 views
5

나는 pdf 파일에서 텍스트를 추출하기 위해 pyPdf와 pdfMiner를 모두 실험했다. pdfMiner 만 성공적으로 추출 할 수있는 비우호적 인 pdfs가 있습니다. 전체 파일의 텍스트를 추출하려면 here 코드를 사용하고 있습니다. 그러나 pyPdf의 getPage(i).extractText() 기능과 같은 페이지 단위로 텍스트를 추출하고 싶습니다. 누구든지 pdfMiner를 사용하여 페이지 당 텍스트를 추출하는 방법을 알고 있습니까?파이썬으로 페이지 당 텍스트를 추출하십시오. pdfMiner?

답변

6
for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page 

꽤 좋은 기사 here가 있습니다.

+0

누군가이 내용을 자세히 설명 할 수 있습니까? 나는 문서가 전혀 없기 때문에 pdfminer에 대해 큰 고민 거리가 있습니다. – Jazcash

+0

어떤 버전의'pdfminer'가이 코드를 작동합니까? –

+0

이것은 현재 * pdfminer * (20140328 작성시 작성 시간)와 일치하지 않는 것으로 보입니다. –

관련 문제