은 당신이 PDF 파일에서 볼 수있는 정적 텍스트는 PDF 구문을 사용하여 콘텐츠 스트림에 저장됩니다.
PDF 파일에서 볼 수있는 대화 형 기능은 Carousel Object System (COS)을 사용하여 소위 Annotation Dictionary라는 페이지의 콘텐츠 스트림 외부에 저장됩니다.
itextpdf.com과 같은 것을 볼 때 PDF 내에 <a href="http://itextpdf.com/">itextpdf.com</a>
과 같은 것이 있다는 가정을하고있을 것입니다.
없습니다. 어딘가 페이지의 /Contents
이 들어있는 콘텐츠 스트림
/F1 12 Tf
(itextpdf.com)Tj
:
같은 것을있을 것입니다. 당신의 PDF 파일에 개체로
<<
/A<<
/S/URI
/URI(http://itextpdf.com)
>>
/Subtype/Link
/C[0 0 1]
/Border[0 0 0]
/Rect[36 803.52 98.03 814.62]
>>
: 당신이 페이지의 /Annots
을 검사 할 때
, 당신은 같은 것을 찾을 수 있습니다. 당신은 모든 링크 및 문서에서 해당 텍스트를 추출 할 경우
, 당신은 작업 (/A
)를 얻을, 하위 /Link
의있는 주석을 확인하십시오 /Annots
을 얻을, 모든 페이지 사전 돌이 필요하고, 좌표 (/Rect
).
텍스트에 해당하는 텍스트를 확인하려면 "지역 텍스트"전략이있는 iText 텍스트 파서 클래스를 사용하고 /Rect
항목에 정의 된 위치에서 텍스트를 추출해야합니다.
의견에 GPRathour가 표시 한대로 시도한 것을 보여줘야합니다. 다음 질문이 "코드 샘플을 제공 할 수 있습니까?"라고 대답하면 질문을 위험에 내 맡기거나 닫을 위험이 있습니다. http://itextpdf.com에있는 예제를 살펴보면 그 중 일부는 솔루션에 매우 근접하게됩니다.
당신이 말했듯이, 나는 노력하고 있습니다. 어떻게 노력하고 있는지 보여줄 수 있습니까? – gprathour