2016-10-08 2 views
0

PDF 라이브러리, Java 라이브러리에 문제가 있습니다. 나는 PDF 파일의 구조를 연구하고 정보를 잃지 않고 텍스트 필 거 대신 PDPage.getContents()를 사용하려고한다.PDFBox는 약어의 의미를 얻습니다.

문제가되는 것은 웹 사이트에서 설명을 찾을 수없는 많은 약어와 숫자가있는 콘텐츠를 표시합니다.

예 : 다른 내가 간단한 명백한 것들 중 일부를 번역 할 수 있었다

BT 
0.001 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04069 571.90505 Tm 
[(con)26.6(t)4.4(aining)-378.3(their)-378.2(a)-4.9(sso)-29(ciated)-358.9(eigen)26.6(v)59(alues)] TJ 
ET 
BT 
0 Tc 
0 TL 
/F8 1 Tf 
9.9626 0 0 9.9626 226.08209 571.90505 Tm 
[(\012)] TJ 
ET 
BT 
/F11 1 Tf 
6.9738 0 0 6.9738 231.84 570.465 Tm 
[(d)] TJ 
ET 
BT 
0.0002 Tc 
/F5 1 Tf 
9.9626 0 0 9.9626 236.64 571.905 Tm 
[(,)-372.5(i)0.9(n)-383.8(d)1.7(escending)-379.1(o)-5.7(r)-5.6(der)-5.6(.)-360.4(Beca)-5.7(use)-362.4(t)3.6(he)] TJ 
ET 
BT 
-0.0008 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04024 559.90505 Tm 
[(co)17.4(v)57.2(a)-6.7(r)-6.6(i)-0.1(a)-6.7(n)0.7(ce)-267(ma)-6.7(tr)-6.6(ix)-280(is)-280.9(symmetr)-6.6(ic)-279.1(a)-6.7(n)0.7(d)-288.4(s)-3.8(emip)-23.4(o)-6.7(s)-3.8(itiv)21.1(e)-279.1(d)0.7(e“nite,)-289.1(t)2.6(he)-291.1(eig)-6.7(e)-2(n)24.8(v)21.1(ecto)-6.7(r)-6.6(s)-256.8(a)-6.7(r)-6.6(e)] TJ 
ET 

(ET = 최종 텍스트, BT는 = 텍스트를 시작)하지만 기본적으로 모든 것을 나는 확신 할 수 없다. "음절"옆의 숫자는 위치를 가지고 뭔가를하는 것처럼 보입니다.

나에게 특히 관심있는 부분은/F5,/F7, ..입니다. 그들은 그들 뒤에 오는 텍스트 형식과 관련이있는 것 같지만, 이것이 일반 PDF 분석에 실제로 도움이되지 않는다는 것을 알면 조금 더 많은 정보가 필요합니다.

나는 사용할 수있는 정보를 기꺼이 받아 들일 것입니다. 미리 감사드립니다 :)

+1

자주 묻는 질문에 대해 가장 어려운 부분은 질문하는 것입니다. 이러한 축약어의 의미를 묻는 대신, "어떻게하면 실행 가능한/읽을 수있는 pdf 표현을 얻는가"와 같은 질문을 다시 말하면 어떨까요 ... 나는 pdfbox에 대한 공헌자도 그 약어를 해석하는 데 어려움을 겪었으며 그것들을 읽을 수있게 만드는 방법. ..... 아니면 그냥 문서를 읽으시겠습니까? – baao

답변

1

가장 좋은 장소는 PDF 32000 specification 또는 645 페이지의 부록 A (왼쪽) "운영자 요약"입니다. 처음에는 항상 사용했습니다.

예에서 "Tf"는 "글꼴 선택"입니다. 글꼴이 무엇인지 알아 보려면 PDFDebugger를 사용하여 리소스 사전에서 이름을 찾거나 "Tf"위에 마우스 커서를 올려 놓고 글꼴 이름이 표시 될 때까지 기다리십시오. 다음 예는 다음과 같습니다

enter image description here

그래서/TT2는 굴림, 굵은 글꼴의 하위 집합입니다.

+0

감사합니다. – Dominus