2013-04-16 2 views
2

내가 잘 작동 코드, 그러나 그 다음으로 끝날 Apache tika자바 : Microsoft Word 문서 변환기 스타일 시트를 HTML로

와 HTML 형식으로 문서 또는 DOCX (마이크로 소프트 워드) 파일을 변환하는 것을 시도하고 필요에 따라 결과 HTML에 스타일 시트를 추가하지 않습니다.

import javax.xml.transform.OutputKeys; 
import java.io.*; 
import javax.xml.transform.stream.StreamResult; 
import javax.xml.transform.sax.SAXTransformerFactory; 
import javax.xml.transform.sax.TransformerHandler; 
import org.apache.tika.metadata.Metadata; 
import org.apache.tika.parser.AutoDetectParser; 
import org.apache.tika.parser.ParseContext; 
import org.apache.tika.detect.DefaultDetector; 


public class DocxConvert 

    { 

    public static void main(String []args) 
    { 
     InputStream input=null; 

    try 
     { 
    StringWriter sw = new StringWriter(); 
      SAXTransformerFactory factory = (SAXTransformerFactory) 
      SAXTransformerFactory.newInstance(); 
      TransformerHandler handler = factory.newTransformerHandler(); 
      handler.getTransformer().setOutputProperty(OutputKeys.METHOD,"html"); 
      handler.getTransformer().setOutputProperty(OutputKeys.INDENT,"yes"); 
      handler.setResult(new StreamResult(sw)); 
      input = new FileInputStream("f:\\file.doc"); 
      DefaultDetector detector = new DefaultDetector(); 
      Metadata metadata = new Metadata(); 
      org.apache.tika.parser.Parser parser = new AutoDetectParser(detector); 
      parser.parse(input, handler, metadata, new ParseContext()); 

      System.out.print(sw.toString()); 

     } 
     catch (Exception ex) 
    { 
     ex.printStackTrace(); 
    } 
     finally { 
       try { 
      input.close(); 
      } 
        catch (IOException e) 
       { 
      // TODO Auto-generated catch block 
      e.printStackTrace(); 
      } 
     } 

} 

} 

출력 할 스타일 시트를 추가/생성 할 수있는 방법이 있습니까? 친절하게 도와주세요!

답변

0

나는 Tika 1.6 버전을 사용했고 저에게는 잘되었습니다. 다음은 내가 사용한 pom 의존성입니다.

http://tika.apache.org/download.html

<dependencies> 
     <dependency> 
      <groupId>org.apache.tika</groupId> 
      <artifactId>tika-core</artifactId> 
      <version>1.6</version> 
     </dependency> 
     <dependency> 
      <groupId>org.apache.tika</groupId> 
      <artifactId>tika-parsers</artifactId> 
      <version>1.6</version> 
     </dependency> 
    </dependencies> 
0

unoconv를 사용할 수 있으며 Openoffice 또는 Libreoffice가 필요합니다. here에서 다운로드하고 doc, docx, xls 등을 서버의 명령 줄에서 pdf로 변환 할 수 있습니다. 당신이 아파치 또는 아파치 바람둥이와 PDF 파일을 삽입을 표시하고 싶다면, 나는 pdf.js가 좋은 해결책이라고 생각한다.

관련 문제