2011-12-21 4 views
4

MSWord .doc/.docx 파일을 일반 텍스트 형식으로 변환 할 수있는 c/C++ 오픈 소스 라이브러리가 있습니까?.doc 일반 텍스트 변환기

+2

Michael Palin 또는 Sarah Palin? –

+0

@ Paul Michael Palin. 항상. – Bojangles

+0

http://blog.stackoverflow.com/2010/11/qa-is-hard-lets-go-shopping/ –

답변

1

나는이 작업을 위해 라이브러리에 대해 알고하지 않습니다하지만 아마 당신은 Antiword에서 중요한 비트를 추출 할 수 있습니다. 그래도 안티 바이러스가 docx를 처리하는 것은 확실하지 않습니다.

2

이들은 실제로 라이브러리가 아니지만 여전히 유용 할 수 있습니다. 내가 알고있는 콘솔 애플리케이션은 antiwordcatdoc입니다. 안티 그램은 GPL이며 catdoc 소스도 사용할 수 있지만 라이선스에 대해서는 확신 할 수 없습니다. 이것들은 C 언어로 작성 되었기 때문에 C++에서 이들을 사용할 수 있어야합니다.

2

다른 모든 것이 실패 할 경우 .docx 파일은 실제로 여러 디렉토리가있는 ZIP 파일입니다. 해당 디렉토리 중 하나에있는 파일 중 하나에 마크 업이있는 XML 문서 텍스트가 있습니다. 줄 끝을 표시하기 때문에 처리해야하는 태그가 있지만 대부분 자동 고침이 여러 가지 항목에 플래그를 지정한 곳이나 마크 업 형식의 임의로 분산 된 5 단계 깊이 중첩 태그를 표시합니다.

(I없이 인터넷 접속 번 기계에 손으로이 작업을 수행했다. 누군가가 오피스 2011 파일을 저장하고 boonies에 밖으로 친구의 장소에서 오피스 2005 정도에서 엽니 다 싶었다.)