2014-11-26 2 views
-1

저는 파이썬으로 작업 중이며 pdf 파일이 있습니다. 나는 html을 찾으려고 노력했지만 그렇게 할 수 없었다. pdf에는 테이블이 있는데 그 안에 데이터가 필요합니다. 내가 html로 (나는 함께 일할 수있어)와 텍스트를 바꾸려고 노력하지만 텍스트 만 이상한 기호 목록이 있습니다. 너 나 좀 도와 줄 수있어? 내 특정 질문은 : 파이썬으로 PDF 파일을 추출 할 가능성이 있습니까? 나는 텍스트를 추출 할 후 작업 (단어 나 시간을 확인합니다. 그것은 버스 일정입니다)파이썬 코드에 PDF 사용

filename = "bus.pdf" 
import slate 
with open('example.pdf') as f: 
    doc = slate.PDF(f) 
    print(doc) 
+0

슬레이트에 대해 들어 보셨습니까? 단순히 https://pypi.python.org/pypi/slate –

+0

을 확인하지 않았다면 그렇게하려하지만 파이썬은 "NameError : name '슬레이트'가 정의되지 않았습니다."를 반환합니다. 할 일이 있습니까? – pp94

+0

슬레이트 패키지를 다운로드 한 다음 슬레이트 –

답변

2
github에서

다운로드 슬레이트 다음은 import slate을한다. 또한 참조하십시오 slate tutorial

>>> with open('example.pdf') as f: 
... doc = slate.PDF(f) 
... 
>>> doc 
[..., ..., ...] 
>>> doc[1] 
'Text from page 2...' 
1

Slate은 PDF에서 텍스트를 추출하는 작업을 수행합니다. slate.PDF(open('file.pdf), 'r')) 개체를 만들어 변수에 할당하고 인쇄하면됩니다.

https://pypi.python.org/pypi/slate

+0

댓글에서 볼 수 있듯이 ... \t 예, 파이썬 반환 "NameError : name '슬레이트'정의되지 않았습니다. 할 일이 있습니까? – pp94

+0

@ pp94 네,'슬레이트'를 가져와야하고'pip install slate'를 사용하여 CMD에 설치해야합니다. – HarryCBurn

관련 문제