이미 많은 질문이 있으며 이미 거의 다 읽었습니다. RTF가 관련되어있을 때 우리가 원하는 모든 것을 할 라이브러리가 하나도 없다는 것을 이해합니다.RTF를 XML로 변환
그러나 다음 형식의 RTF 문서를 XML로 변환 할 때 새로운 관점을 찾고 있습니다.
이
은 기본적으로 문서가 제대로 구성되지 않은 형식 01. AAAAAA
01.1 BBBBB
01.2 CCCCC
01.3 DDDDD
02. ZZZZZZ
2.1 YYYYYY
2.2 XXXXXX
2.2.1 SUBSUB
2.3 QQQQQ
2.4 MMMM
03. GGGGG
3.1 LLLLLLLL
3.2 NNNNN
입니다. 그것은 어떤 장소에서 여분의 공간, 부 목록의 등등 번호
구조를 유지하는 XML과 같은 structred 형식으로 변환하는 방법이 있습니까?
아파치 티카 (Apache Tikka)를 살펴 보았습니다. 라이브러리는 RTF 문서에서 텍스트를 추출하지만, 데이터 집합이 올바르게 구분되지 않기 때문에 계층 구조를 유지 관리 할 수 있는지 잘 모르겠습니다.
다른 오픈 소스 라이브러리가 있습니까?
이 문제에 접근하는 방법에 대한 제안 사항이 있으십니까?