2017-02-07 1 views
1

pdf 파일의 분할과 관련하여 질문이 있습니다. 기본적으로 나는 단락의 관점에서 분할하려는 파일의 PDF 파일 모음을 가지고 있습니다. 그래서 PDF 파일의 각 단락에 자체적으로 파일이됩니다. 당신이 이것을 도와 주시면 고맙겠습니다. 파이썬에서 가능하면 좋겠지 만, 그렇게 할 수 없다면 어떤 언어 든 상관 없습니다.PDF 파일을 단락으로 나누기

+0

PDF에서 텍스트를 추출하는 데 Python과 함께 사용할 계획이 있습니까? pdf2text를 사용할 수도 있습니다. – Radan

+0

현재 pdftotext를 사용하여 PDF를 구문 분석하기 위해 서브 프로세스 호출을 사용하는 프로그램을 작성 중입니다. 매우 유용합니다 : https://en.wikipedia.org/wiki/Pdftotext – Steampunkery

+0

@Radan 단락 사이의 유사점을 계산하고 싶습니다. 모든 pdf 파일은 여러 단락으로 구성되어 있으며 서로 비슷한 단락을보고 싶습니다. 하지만 먼저 단락으로 PDF 파일을 분할해야합니다. – LoniF

답변

0

위의 경우 pdftotext을 사용하고 파이썬 하위 프로세스로 감쌀 수 있습니다. 또는 이미 암시 적으로 수행하는 다른 라이브러리를 과 같이 사용할 수 있습니다. 여기에 간단한 예가 있습니다. 참고 : 텍스트를 단락 목록으로 변환하는 데 구분자로 4 칸을 사용했습니다. 다른 기술을 사용하고 싶을 수도 있습니다.

import re 
import textract 
#read the content of pdf as text 
text = textract.process('file_name.pdf') 
#use four space as paragraph delimiter to convert the text into list of paragraphs. 
print re.split('\s{4,}',text) 
+0

예를 들어 주셔서 감사합니다. 그것은 내 경우에 잘 작동합니다. – LoniF

관련 문제