PDF 라이브러리, Java 라이브러리에 문제가 있습니다. 나는 PDF 파일의 구조를 연구하고 정보를 잃지 않고 텍스트 필 거 대신 PDPage.getContents()를 사용하려고한다.PDFBox는 약어의 의미를 얻습니다.
문제가되는 것은 웹 사이트에서 설명을 찾을 수없는 많은 약어와 숫자가있는 콘텐츠를 표시합니다.
예 : 다른 내가 간단한 명백한 것들 중 일부를 번역 할 수 있었다
BT
0.001 Tc
1.2045 TL
9.9626 0 0 9.9626 53.04069 571.90505 Tm
[(con)26.6(t)4.4(aining)-378.3(their)-378.2(a)-4.9(sso)-29(ciated)-358.9(eigen)26.6(v)59(alues)] TJ
ET
BT
0 Tc
0 TL
/F8 1 Tf
9.9626 0 0 9.9626 226.08209 571.90505 Tm
[(\012)] TJ
ET
BT
/F11 1 Tf
6.9738 0 0 6.9738 231.84 570.465 Tm
[(d)] TJ
ET
BT
0.0002 Tc
/F5 1 Tf
9.9626 0 0 9.9626 236.64 571.905 Tm
[(,)-372.5(i)0.9(n)-383.8(d)1.7(escending)-379.1(o)-5.7(r)-5.6(der)-5.6(.)-360.4(Beca)-5.7(use)-362.4(t)3.6(he)] TJ
ET
BT
-0.0008 Tc
1.2045 TL
9.9626 0 0 9.9626 53.04024 559.90505 Tm
[(co)17.4(v)57.2(a)-6.7(r)-6.6(i)-0.1(a)-6.7(n)0.7(ce)-267(ma)-6.7(tr)-6.6(ix)-280(is)-280.9(symmetr)-6.6(ic)-279.1(a)-6.7(n)0.7(d)-288.4(s)-3.8(emip)-23.4(o)-6.7(s)-3.8(itiv)21.1(e)-279.1(d)0.7(e“nite,)-289.1(t)2.6(he)-291.1(eig)-6.7(e)-2(n)24.8(v)21.1(ecto)-6.7(r)-6.6(s)-256.8(a)-6.7(r)-6.6(e)] TJ
ET
(ET = 최종 텍스트, BT는 = 텍스트를 시작)하지만 기본적으로 모든 것을 나는 확신 할 수 없다. "음절"옆의 숫자는 위치를 가지고 뭔가를하는 것처럼 보입니다.
나에게 특히 관심있는 부분은/F5,/F7, ..입니다. 그들은 그들 뒤에 오는 텍스트 형식과 관련이있는 것 같지만, 이것이 일반 PDF 분석에 실제로 도움이되지 않는다는 것을 알면 조금 더 많은 정보가 필요합니다.
나는 사용할 수있는 정보를 기꺼이 받아 들일 것입니다. 미리 감사드립니다 :)
자주 묻는 질문에 대해 가장 어려운 부분은 질문하는 것입니다. 이러한 축약어의 의미를 묻는 대신, "어떻게하면 실행 가능한/읽을 수있는 pdf 표현을 얻는가"와 같은 질문을 다시 말하면 어떨까요 ... 나는 pdfbox에 대한 공헌자도 그 약어를 해석하는 데 어려움을 겪었으며 그것들을 읽을 수있게 만드는 방법. ..... 아니면 그냥 문서를 읽으시겠습니까? – baao