2011-11-17 2 views
1

이미 많은 질문이 있으며 이미 거의 다 읽었습니다. RTF가 관련되어있을 때 우리가 원하는 모든 것을 할 라이브러리가 하나도 없다는 것을 이해합니다.RTF를 XML로 변환

그러나 다음 형식의 RTF 문서를 XML로 변환 할 때 새로운 관점을 찾고 있습니다.

은 기본적으로 문서가 제대로 구성되지 않은 형식

 01. AAAAAA 
       01.1 BBBBB 
       01.2 CCCCC 
       01.3 DDDDD 
    02. ZZZZZZ 
       2.1 YYYYYY 
       2.2 XXXXXX 
         2.2.1 SUBSUB 
       2.3 QQQQQ 
       2.4 MMMM 


    03. GGGGG 
       3.1 LLLLLLLL 
       3.2 NNNNN 

입니다. 그것은 어떤 장소에서 여분의 공간, 부 목록의 등등 번호

구조를 유지하는 XML과 같은 structred 형식으로 변환하는 방법이 있습니까?

아파치 티카 (Apache Tikka)를 살펴 보았습니다. 라이브러리는 RTF 문서에서 텍스트를 추출하지만, 데이터 집합이 올바르게 구분되지 않기 때문에 계층 구조를 유지 관리 할 수 ​​있는지 잘 모르겠습니다.

다른 오픈 소스 라이브러리가 있습니까?

이 문제에 접근하는 방법에 대한 제안 사항이 있으십니까?

답변

0

문서에서 텍스트를 추출 할 수 있다면 정규 표현식을 사용하여 내용을 구문 분석하고 필요한 구조를 만들 수 있습니까? 그러면 제 정합 기의 도트 카운트 /^\s*([0-9.])+\s*(\w+)/ 같은 패턴에 대한 탐색을 반복하여, 새로운 요소를 추가 할 수 점의 수가 이전에 처리 요소 점의 개수와 동일한 경우

  • 를 -로 그 형제;
  • 큰 경우 - 하위 요소 인 경우 작은 자식 인 경우
  • - 해당 상위 요소의 형제 인 경우.