2017-05-23 1 views
1

pdf2dom을 사용하고 있으며 기본 설명서를 시험하고 있습니다. 그들의 문서에 명시된 - Pdf2Dom은 Apache PDFBox ™ 라이브러리를 기반으로합니다.PDF2DOM을 사용하여 HTML을 PDF로 변환하는 경우 null

File file = new File("file.pdf"); 
PDDocument pdf = PDDocument.load(file); 
PDFDomTree parser = new PDFDomTree(); 
Document dom = parser.createDOM(pdf); 
System.out.println(dom); 

인쇄됩니다 무엇 - [#document : 널 (null)]와 같은 코드를 시도

3 가지 PDF의

내가 그것을 유효한 텍스트를 반환 텍스트에서 동일한 PDF를 제거합니다. 따라서 파일이 null이 아닙니다. 틀린 일이나 도서관 자체를하고 있습니까?

스트리퍼 코드가 도움이되는지 확인하십시오.

PDDocument pdf = PDDocument.load(pFile); 
PDFTextStripper stripper = new PDFTextStripper(); 
String text = stripper.getText(pd); 
System.out.println(text); 

미리 감사드립니다.

답변

1

코드에 아무런 문제가 없습니다. Document 객체의 toString() 메서드는 그런 식으로 반환합니다.

[# 문서 : null]은 두 부분으로 구성됩니다. 첫 번째 부분은 노드 이름 인 #document입니다. XML을 구문 분석 할 때 항상 #document 노드가 최상위 노드로 수신됩니다. 두 번째 부분은 노드 값인 null입니다. null는 노드에 값이 없음을 나타내는 데 사용됩니다.

dom.getDocumentElement(). getTextContent()를 인쇄하면 값이 표시됩니다.

+0

감사합니다. 멍청한 탓으로 돌봐 주셔서 감사합니다. –

관련 문제