PDF 문서에서 텍스트를 추출 할 수있는 PDF 라이브러리를 찾고 있습니다. 필자는 PyPDF를 살펴 봤는데, PDF 문서에서 텍스트를 아주 잘 추출 할 수 있습니다. 이 문제는 문서에 테이블이있는 경우 테이블의 텍스트가 나머지 문서 텍스트와 함께 인라인으로 추출된다는 것입니다. 이것은 유용하지 않고 문자가 깨지기 쉬운 텍스트 섹션을 생성하기 때문에 문제가 될 수 있습니다 (예 : 많은 숫자가 서로 섞여 있음).고급 PDF 구문 분석 (테이블이없는 텍스트 추출 등) : 최고의 라이브러리는 무엇입니까?
나는 조금 더 진보 된 것을 찾고 있습니다. PDF 문서에서 텍스트를 추출하려면 표 및 특수 서식을 제외하십시오. 거기에 도서관이 있나요? 아니면 이러한 섹션을 없애기 위해 출력 텍스트의 일부 후 처리를해야합니까?
PDFMiner가 재미있어합니다. 필자는 XML 출력을 사용하여 파싱하여 원하지 않는 것을 무시할 수 있습니다. 여전히 상당한 후 처리가 필요하지만 지금은 아마도 최상의 솔루션 일 것입니다. 고맙습니다. –
@Etienne, PDF에도 다른 언어 문자가있는 경우이 기능을 사용할 수 있습니까? –
다른 언어 문자와도 작동해야합니다. 문서 작성자 : CJK 언어 및 세로 쓰기 스크립트가 지원됩니다. 가장 좋은 방법은 그것을 테스트하십시오! – Etienne