2016-08-01 6 views
2

Java에서 PDFBox 1.8.10을 사용하여 간단한 텍스트 추출 방법을 구현했습니다. 어떤 이유로 PDFBox 2.0.2로 라이브러리를 업그레이드해야합니다. PDFTextStripper() 메서드가 제거되었거나 새 버전의 다른 패키지에있을 수 있습니다. 이 문제를 해결할 방법이 있습니까? 또는 PDF에서 텍스트를 가져 오는 다른 방법을 제안 할 수 있습니까? 사전에PDFBox 2.0.2를 사용하여 텍스트를 추출하는 중 클래스가 누락 됨 PDFTextStripper()

public String extractTextFromPdf() { 
    File jInputFile = new File("c:/lorem/ipsum.pdf"); 
    PDDocument PDDoc = PDDocument.load(jInputFile); 
    String strContent = new PDFTextStripper().getText(PDDoc); 
    PDDoc.close(); 
    return strContent; 
} 

감사 :

여기 내 코드입니다.

+0

이 그것을 시도? Netbeans에서 Ctrl-Shift-I를 누르면 가져 오기가 자동으로 고정됩니다. eclipse에서 Ctrl-Shift-O를 누릅니다. –

+0

@TilmanHausherr 고마워요. 나는 이클립스를 사용하고있다. 다시 시작한 후 수정되었습니다. 임시 오류라고 생각합니다. PDFBox는 PDFTextStripper 클래스를 'org.apache.pdfbox.util'에서 'org.apache.pdfbox.text'패키지로 옮겼습니다. 무슨 발전 ... – brootforce

+0

다행 작동합니다. 다소 사소한 질문이므로 질문을 삭제하십시오. 또는 직접 대답하십시오. –

답변

0

당신이 사용하는 어떤 IDE

{ 
    PDDocument document = null; 
    document = PDDocument.load(new File("test.pdf")); 
    document.getClass(); 
    if (!document.isEncrypted()) { 
     PDFTextStripperByArea stripper = new PDFTextStripperByArea(); 
     stripper.setSortByPosition(true); 
     PDFTextStripper Tstripper = new PDFTextStripper(); 
     String st = Tstripper.getText(document); 
     System.out.println("Text:" + st); 
    } 
} catch (Exception e) { 
    e.printStackTrace(); 
}` 
+1

이 질문에 대한 답변이 아닙니다. 또한,'document.getClass();'는 아무 효과가 없다. 'if (! document.isEncrypted())'는 필요 없습니다. –

관련 문제