2014-09-17 2 views
1

워드 파일을 XML 형식으로 저장하고 구문 분석 한 후 해당 XML 파일에서 일부 작업을 수행하려고했습니다.xml 형식의 워드 문서 저장

내 워드 문서에있는 데이터가 다른 태그에서 손상되었습니다.

예를

난 내 Word 문서에서 $ 날짜가 TLY이 개 태그에 깨진 및 tlyabcd가 하나의 태그에 남아있는 반면, 추가 2 개의 tags.Also tlyadd에 $ 날짜로 부서졌다가있는 경우.

다른 문서에서 이러한 값은 다른 태그로 분리되지 않습니다.

나는이 값들이 다른 태그에 어떤 근거가 있는지 이해하지 못하고 있습니다.

msdn에서 xml 형식의 단어를 찾을 수 없습니다.

누군가가 나에게 왜 그리고 어떤 이유로 이것이 이루어 졌는지에 대한 설명을 줄 수 있습니까? 여기

는 불분명하고

+0

다른 버전의 Word는 다른 XML 형식을 사용합니다. Office (2007) Open XML 파일 형식 소개, http : //msdn.microsoft.com/en-us/library/aa338205%28v=office.12%29.aspx. –

+0

@ JukkaK.Korpela 동의하지만 XML 압축 형식 인 .docx에 대해 묻지는 않습니다. 많은 데이터를 링크 할 수 있지만 태그 사이에 데이터가 나누어 져있는 근거는 없습니다. –

답변

1

당신은 텍스트가 하나의 실행 또는 여러에 있는지 여부에 대한 가정을하지 않아야 더 설명이 필요한 경우 알려줘이 값

를 포함하는 document입니다. 텍스트가 분할 될 수있는 상황을 제한하는 규칙은 없습니다. 말했다

, 텍스트를 강제로 다양한 것들을 실행에 분할 될 수있다 :

  • 맞춤법/문법 검사는
  • 서식을 해제 할 수 있습니다 (아마 $ 날짜가 일어나고가) 반 단어가
  • 개정 (다른 사람들이 서로 다른 시간에 문서 변경 - RSID)를 굵은 인 경우, 예를 들어,
  • 변화를 추적 등

문서를 사전 처리하여 실행에 참여할 수는 있습니다. 예를 들어, docx4j의 VariablePrepare.java