2014-09-07 1 views
2

방정식이있는 단어/docx 파일이 있습니다. POI의 XWPFWordExtractor.getText를 사용하면 방정식을 읽을 수 없습니다.Word (Docx)에서 방정식 및 공식 읽기

내 질문은 :

  1. 무엇을/어떻게 이러한 방정식으로 표현된다?
  2. 어떻게 읽습니까? (결국 HTML로 표시하고 싶습니다 - MathML?)?

고마워요!

답변

1

DOCX 파일의 방정식은 omml 사용하여 표현 m:oMathPara/m:oMath입니다 :

<m:oMathPara xmlns:m="http://schemas.openxmlformats.org/officeDocument/2006/math"> 
    <m:oMath> 

내가 POI에 대해 잘 모르지만, docx4j에 해당 네임 스페이스의 요소는 JAXB는 org.docx4j.math

에서 객체를 생성하여 표현된다

두 번째 질문에 m : oMathPara/m : oMath를 마샬링 한 다음 omml2mathml.xsl을 통해 변환합니다. Murray Sargent의 블로그 (예 : herehere)를 참조하십시오.

+0

감사합니다. docx4j를 확인합니다. – Chinmay