2012-03-20 4 views
0

나는 PDF 파일의 내용을 추출하기 위하여 PDFBox에 종사하고있다. 텍스트를 추출 할 수 있지만 텍스트의 글꼴 속성을 가져와야합니다. 그렇다면 누구나 글꼴 속성을 추출하는 데 도움이 될 수 있습니까?pdfbox를 가진 pdf 원본의 글꼴 속성을 얻으십시오

그리고 특정 문자를 올바르게 추출하는 데 문제가 있습니다. PDFBox는 '?'를 제공합니다. 캐릭터를 인식 할 수없는 경우. 그래서 가능하면 문제를 해결하기 위해 나에게 몇 가지 제안을주고 .. 사전에

감사합니다 ..

답변

0
import org.apache.pdfbox.pdmodel.PDDocument; 
import org.apache.pdfbox.util.PDFTextStripper; 
public class pdf2box { 
    public static void main(String args[]) 
    { 
     try 
     { 
    PDDocument pddDocument=PDDocument.load("table2.pdf"); 
    PDFTextStripper textStripper=new PDFTextStripper(); 
    System.out.println(textStripper.getText(pddDocument)); 
    textStripper.getFonts(); 



    pddDocument.close(); 
     } 
     catch(Exception ex) 
     { 
     ex.printStackTrace(); 
     } 
    } 


} 
관련 문제