2014-10-30 2 views
2

안녕하세요, jodconverter 3.0을 사용하여 html로 pdf 파일을 변환하려고합니다. 결과 HTML 파일에 정크 문자가 포함되어 있으므로 변환이 성공하지 못했습니다. 어떤 사람이 무엇이 일인지 알 수 있습니까? 여기 JODConverter - 쓰레기 데이터로 변환하는 HTML

는 코드입니다 :

OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager(); 
officeManager.start(); 
OfficeDocumentConverter converter = new 
OfficeDocumentConverter(officeManager); 
converter.convert(inputFile, outputFile); 
officeManager.stop(); 

위치를 입력 _이 = "있는 test.pdf"및 출력 _ = "test.html를"파일 = 새로운 파일 (...)를 사용하여 를 생성; 출력 파일에서

샘플 :

%PDF-1.4 %Çì�¢ 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream 
xœÅ][“#·q.[¢Ì,U’/’,˦sìÄÉ9  ÏxpÇDOVh;NUª,{“<ˆ~X.wIƼ./²þF¬#œ##—Æ 
13gIFÒ#8#h4€Æ×#4°O7}Çø¦wÿÇÂéã_þÁlî>;zº‘\�#-ç#Ɇn#ôFIfÇZvsóñÑçG¾ùæ#¿ 
#ªZ³íó�ì˜Ô½†�#&–#µ½=Rê •ŸîöªS¦g#õ:åÉ•þ6WŒm7éÇŸ¥ÒÏ}  Æ¿ý»ÜàçéçÜÇÇD#3|æ5¡Jï¤G ›dÑQË?ÿ"0e¢pø©ú‡‘Anyñù#Y9H‡#& 
…ÿü��½[[ôñÝDáÖ.Šƒ�‘¸•#w3¥##w[\KãwºÛÉ?sÓÀ¬ÑÃöŸÜ#A4´�Ýœ¾###ü<=#`# 
À####IÍCùA(#­]Ù×#Ë÷Žþ{óh%#Q¬K#A]°þ  À¶#L*##¥4¬ƒLü}þj�##á{SCê 
‡¡Ã/"d½—`(# '`d»‡�0~  
ó3.#ï�ÏnÔ˜=Ì›ƒ(#Õ…)Ú½½ãÆtli##l#…9Úþrq#RöN<ð(® 
£ž¯ïöCÇ•„ÙïÓˆ®_A#cî#Ÿ=_ät0®;Äé•d¤Á¶äÌ#p=�Ûҗö#»epe_g,#´-éiP=ìÃb#ð¸òb2î 
—Щ«­(#Nõ=Úº—²‚% Ã#Ui×�AËÞ#s¶qý:Ã#xø 
+1

Jodconverter의 변환을 위해 오픈 오피스에 의존합니다. OpenOffice에서 같은 변환을 직접 시도 했습니까? 더 나은 결과를 얻었습니까? – RealSkeptic

+0

어디서나 가장 작은 pdf 파일을 오류로 업데이트 할 수 있습니까? – SkorpEN

답변

3

당신은 HTML 또는 오픈 오피스와 다른 형식으로 PDF를 변환 할 수 없습니다. 당신은 FROM이 아닌 pdf로 변환 할 수 있습니다. 메모장에서 PDF를 여는 것과 동일한 내용의 내용 만 있습니다.

대신 iText 라이브러리를 사용하여 PDF 파일을 구문 분석하고 구문 분석 된 텍스트로 HTML을 만들 수 있습니다. 원래 서식을 유지해야하는 경우 약간 힘들 수 있습니다.

은 어쩌면이 또한 한 번 봐 가지고하려고 : http://sourceforge.net/projects/pdftohtml/

관련 문제