2011-03-15 5 views
0

저는 pdf 전자 책에서 주제 모델링을하고 있으며 단락별로 텍스트 단락을 추출해야합니다. 이것을 위해 나는 PDF에서 텍스트를 효율적으로 추출하는 apache pdfBox를 사용하고 있습니다.pdf에서 단락 추출하기

PDFParser parser; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText (pdDoc);

단락을 별도로 추출 할 수 없습니다. 이 도구는 단락 시작/끝 식별자를 설정하는 방법을 제공하지만이 단락 구분 식별자를 알아야합니다.

이 방법이 있습니까, 아니면 단락 추출을 효과적으로 할 수있는 다른 도구를 사용할 수 있습니까?

답변

1

PdfNitro는 단락 추출에 가장 적합한 도구입니다.

이 도구의 유일한 문제점은 페이지 나누기를 단락으로 간주한다는 것입니다. 그렇지 않으면 잘 작동합니다. 이 도구는 테스트를 위해 14 일 평가판에서 사용할 수 있습니다.