pdf 파일의 분할과 관련하여 질문이 있습니다. 기본적으로 나는 단락의 관점에서 분할하려는 파일의 PDF 파일 모음을 가지고 있습니다. 그래서 PDF 파일의 각 단락에 자체적으로 파일이됩니다. 당신이 이것을 도와 주시면 고맙겠습니다. 파이썬에서 가능하면 좋겠지 만, 그렇게 할 수 없다면 어떤 언어 든 상관 없습니다.PDF 파일을 단락으로 나누기
1
A
답변
0
위의 경우 pdftotext을 사용하고 파이썬 하위 프로세스로 감쌀 수 있습니다. 또는 이미 암시 적으로 수행하는 다른 라이브러리를 과 같이 사용할 수 있습니다. 여기에 간단한 예가 있습니다. 참고 : 텍스트를 단락 목록으로 변환하는 데 구분자로 4 칸을 사용했습니다. 다른 기술을 사용하고 싶을 수도 있습니다.
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
+0
예를 들어 주셔서 감사합니다. 그것은 내 경우에 잘 작동합니다. – LoniF
관련 문제
- 1. 스팬을 단락으로 나누기
- 2. pdftools를 사용하여 R 단락으로 PDF 구문 분석
- 3. PDF 페이지 나누기 제거
- 4. PDF 렌더러가 0으로 나누기 발생
- 5. 새우 pdf 및 페이지 나누기
- 6. 하나의 PDF 파일을 파일 크기에 따라 배수로 나누기
- 7. 한 페이지를 두 페이지로 나누기 PDF 파일
- 8. 파일을 폴더로 나누기
- 9. 텍스트 파일을 문장으로 나누기
- 10. 단락으로 재 작업 테이블
- 11. pdf 문서에 수동 페이지 나누기 삽입 - PHP
- 12. PDF 및 supress 페이지 나누기 내보내기
- 13. PDF 파일을
- 14. HTML 파일을 고정 된 크기의 페이지로 나누기
- 15. 단락으로 NSString을 나눕니다.
- 16. 단락으로 입력 되돌리기
- 17. 문자열에서 부호없는 단락으로 전달
- 18. 스텐자를 파이썬에서 단락으로 변환
- 19. 문장을 단락으로 단락
- 20. 큰 파일을 짧은 파일로 나누기
- 21. 텍스트 단락을 문장으로 나누기
- 22. pygame의 텍스트가 단락으로 포맷 되었습니까?
- 23. 파이썬을 사용하여 문장을 단락으로 나눕니다.
- 24. 액체 템플릿의 단락으로 텍스트 변환
- 25. byte []를 숫자와 단락으로 해석하기
- 26. Eclipse에서 다음 단락으로 이동 하시겠습니까?
- 27. pdf 파일을 프린터로 보내십시오 - print pdf
- 28. PDF 라이브러리 안드로이드에서 PDF 파일을 렌더링하려면
- 29. PDF- 단락 변환기를 사용하여 PDF 파일을 보는데
- 30. 여러 PDF 파일을 하나의 PDF 파일로 변환
PDF에서 텍스트를 추출하는 데 Python과 함께 사용할 계획이 있습니까? pdf2text를 사용할 수도 있습니다. – Radan
현재 pdftotext를 사용하여 PDF를 구문 분석하기 위해 서브 프로세스 호출을 사용하는 프로그램을 작성 중입니다. 매우 유용합니다 : https://en.wikipedia.org/wiki/Pdftotext – Steampunkery
@Radan 단락 사이의 유사점을 계산하고 싶습니다. 모든 pdf 파일은 여러 단락으로 구성되어 있으며 서로 비슷한 단락을보고 싶습니다. 하지만 먼저 단락으로 PDF 파일을 분할해야합니다. – LoniF