Apache PDFBox를 사용하여 책갈피로 정의 된 계층 구조가있는 PDF 문서를 읽습니다. 계층 구조는 리프 레벨에서만 내용이있는 트리 형태입니다. 다음 코드를 사용하여 두 리프 수준 북마크 사이에있는 텍스트를 추출Apache PdfBox를 사용하여 두 북마크간에 텍스트 추출
: 대신 전체 페이지에
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()),
반환 텍스트입니다. 즉, 내 문제는 this thread에서 언급 한 것과 유사합니다.
두 북마크간에 콘텐츠를 추출 할 수있는 방법이 있습니까?
그렇다면 내 코드가 어떻게 변경되어야합니까?
@Shiram -I 동일 질문이있다 : 여기
는 위치 정보를 포함하는 북마크의 일례이다. 이미 알아 낸 것이라면 답변을 게시하십시오 – Kasun해결책을 찾았습니까? 그렇지 않은 경우 책갈피 (예 : XML 형식)의 예가 있습니다. – maffo