2014-07-10 2 views
1

텍스트를 추출하는 방법과 itext를 사용하여 앵커 정보를 찾고 있습니다.itext를 사용하여 PDF에서 텍스트와 앵커 정보를 추출하십시오.

예 :

PDF contect : 저희 웹 사이트 XYZ을 방문 하셔서 뭔가를하십시오.

출력은 다음과 같아야합니다. 우리 웹 사이트 XYZ (www.google.com)를 방문하여 작업을 수행 할 수 있습니다.

기본적으로 대상 링크 정보가있는 텍스트 파일을 생성하려고합니다. 어도비의 이미지 모델에 설명 된대로

감사합니다, 더 그랜드 쿠마

+2

당신이 말했듯이, 나는 노력하고 있습니다. 어떻게 노력하고 있는지 보여줄 수 있습니까? – gprathour

답변

2

은 당신이 PDF 파일에서 볼 수있는 정적 텍스트는 PDF 구문을 사용하여 콘텐츠 스트림에 저장됩니다.

PDF 파일에서 볼 수있는 대화 형 기능은 Carousel Object System (COS)을 사용하여 소위 Annotation Dictionary라는 페이지의 콘텐츠 스트림 외부에 저장됩니다.

itextpdf.com과 같은 것을 볼 때 PDF 내에 <a href="http://itextpdf.com/">itextpdf.com</a>과 같은 것이 있다는 가정을하고있을 것입니다.

없습니다. 어딘가 페이지의 /Contents이 들어있는 콘텐츠 스트림

/F1 12 Tf 
(itextpdf.com)Tj 

:

같은 것을있을 것입니다. 당신의 PDF 파일에 개체로

<< 
    /A<< 
    /S/URI 
    /URI(http://itextpdf.com) 
    >> 
    /Subtype/Link 
    /C[0 0 1] 
    /Border[0 0 0] 
    /Rect[36 803.52 98.03 814.62] 
>> 

: 당신이 페이지의 /Annots을 검사 할 때

, 당신은 같은 것을 찾을 수 있습니다. 당신은 모든 링크 및 문서에서 해당 텍스트를 추출 할 경우

, 당신은 작업 (/A)를 얻을, 하위 /Link의있는 주석을 확인하십시오 /Annots을 얻을, 모든 페이지 사전 돌이 필요하고, 좌표 (/Rect).

텍스트에 해당하는 텍스트를 확인하려면 "지역 텍스트"전략이있는 iText 텍스트 파서 클래스를 사용하고 /Rect 항목에 정의 된 위치에서 텍스트를 추출해야합니다.

의견에 GPRathour가 표시 한대로 시도한 것을 보여줘야합니다. 다음 질문이 "코드 샘플을 제공 할 수 있습니까?"라고 대답하면 질문을 위험에 내 맡기거나 닫을 위험이 있습니다. http://itextpdf.com에있는 예제를 살펴보면 그 중 일부는 솔루션에 매우 근접하게됩니다.

관련 문제