2010-07-20 3 views
-1

C 또는 Python으로 문서 파싱 용 Lib이 있습니까? PDF, Word Doc/Docx, Excel xls/x, PPT, ODF 및 Mac 형식의 문자열을 구문 분석하려고합니다.Python/또는 C 용 다중 형식 문서 읽기 라이브러리?

Linux/Unix 환경에서도 작동하는 솔루션을 권장하십시오.

+0

여기 시작할 것 : (http://www.google.com/search?hl=en&q=C+text+parsing+sscanf [이 strtok를하고 sscanf를를 사용하여 C에서 구문 분석] + and + strtok) –

+0

나는 다중 문서 독자 라이브러리를 찾고있다. C에서 처음부터 쓰지 않을 것이다. Clibs는 쉽게 파이썬으로 내보낼 수 있으므로 내가 찾고있는 이유를 알 수있다. –

+0

당신 downvote 이유를 정교 할 수 있습니까? –

답변

0

지원/구문 분석 문서 를 엽니 다 오픈 오피스 파이썬 API를 사용합니다, 나는 티카 가장 완벽한 문서 구문 분석 라이브러리를 발견했다. C가 아니라 Java와 Fast (Nailgun에서 실행할 때).

tika.apache.org