2012-03-06 4 views
6

Apache PDFBox를 사용하여 책갈피로 정의 된 계층 구조가있는 PDF 문서를 읽습니다. 계층 구조는 리프 레벨에서만 내용이있는 트리 형태입니다. 다음 코드를 사용하여 두 리프 수준 북마크 사이에있는 텍스트를 추출Apache PdfBox를 사용하여 두 북마크간에 텍스트 추출

: 대신 전체 페이지에

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()), 

반환 텍스트입니다. 즉, 내 문제는 this thread에서 언급 한 것과 유사합니다.

두 북마크간에 콘텐츠를 추출 할 수있는 방법이 있습니까?

그렇다면 내 코드가 어떻게 변경되어야합니까?

+0

@Shiram -I 동일 질문이있다 : 여기

는 위치 정보를 포함하는 북마크의 일례이다. 이미 알아 낸 것이라면 답변을 게시하십시오 – Kasun

+0

해결책을 찾았습니까? 그렇지 않은 경우 책갈피 (예 : XML 형식)의 예가 있습니다. – maffo

답변

0

북마크에 올바른 데이터가 없다고 생각합니다. 콘텐츠가 아니라 페이지에 위치보다 시작되는

그것은 당신 만 페이지 가리키는 사용하는 북마크처럼 들린다.

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title> 
+0

PDFBox에서 책갈피는 특정 GoTo 작업의 결과로 PDPageXYZDestination으로 확인됩니다. 따라서 실제로 페이지의 절대 위치를 가리키며, PDF 뷰어에서 확인되며 북마크를 클릭하면 섹션으로 바로 스크롤됩니다. – nickb

관련 문제