2014-04-25 4 views

답변

2

이것은 불가능합니다. PDF는 인쇄를위한 데이터 형식입니다. 그 때문에 테이블 구조가 없어졌습니다. 운이 좋으면 pypdf으로 텍스트를 추출 할 수 있으며 이전 테이블 열을 추측 할 수 있습니다.

+0

'pd.read_clipboard()'를 사용하고 수동으로 복사하는 방법은 무엇입니까? 테이블이 작동할까요? 나는 손으로 pdfs의 모든 것을 수동으로 입력하는 것을 좋아하지 않는다. – ccsv

+0

@ccsv : 누가 클립 보드를 채우 느냐? 이 프로그램은 같은 문제와 테이블의 구조를 추측해야한다 – Daniel

+0

댕! 나는 pdf에서 테이블을 읽는 빠른 방법을 기대하고 있었다. – ccsv

1

일회용 인 경우 PDF 표의 데이터를 텍스트 파일로 복사하여 형식을 지정하고 (검색 및 바꾸기, 메모장 ++ 매크로, 스크립트 사용) CSV 파일로 저장할 수 있습니다 팬더에로드하십시오.

확장 가능한 방식으로이 작업을 수행해야하는 경우이 제품을 사용해보십시오 (http://tabula.technology/). 나는 아직 그것을 사용하지 않았기 때문에 그것이 얼마나 효과가 있는지 모른다. 그러나 필요할 때 탐색 할 수있다.

0

PDF에서 테이블 데이터를 복사하여 Excel 파일 (일반적으로 여러 열이 아닌 단일 열로 붙여 넣기 됨)에 붙여 넣습니다. 그런 다음 FlashFill (Excel 2016에서 사용 가능, 이전 Excel 버전에 대해서는 확실하지 않음)을 사용하여 데이터를 원래 PDF에서 본 열로 분리합니다. 이 과정은 빠르고 쉽습니다. 그런 다음 판다를 사용하여 Excel 데이터를 논쟁하십시오.