C 또는 Python으로 문서 파싱 용 Lib이 있습니까? PDF, Word Doc/Docx, Excel xls/x, PPT, ODF 및 Mac 형식의 문자열을 구문 분석하려고합니다.Python/또는 C 용 다중 형식 문서 읽기 라이브러리?
Linux/Unix 환경에서도 작동하는 솔루션을 권장하십시오.
C 또는 Python으로 문서 파싱 용 Lib이 있습니까? PDF, Word Doc/Docx, Excel xls/x, PPT, ODF 및 Mac 형식의 문자열을 구문 분석하려고합니다.Python/또는 C 용 다중 형식 문서 읽기 라이브러리?
Linux/Unix 환경에서도 작동하는 솔루션을 권장하십시오.
지원/구문 분석 문서 를 엽니 다 오픈 오피스 파이썬 API를 사용합니다, 나는 티카 가장 완벽한 문서 구문 분석 라이브러리를 발견했다. C가 아니라 Java와 Fast (Nailgun에서 실행할 때).
tika.apache.org
http://wiki.services.openoffice.org/wiki/PyUNO_bridge
그래서 당신이 모든 오픈 오피스의 지원되는 문서 유형이 추구 everone를 들어
여기 시작할 것 : (http://www.google.com/search?hl=en&q=C+text+parsing+sscanf [이 strtok를하고 sscanf를를 사용하여 C에서 구문 분석] + and + strtok) –
나는 다중 문서 독자 라이브러리를 찾고있다. C에서 처음부터 쓰지 않을 것이다. Clibs는 쉽게 파이썬으로 내보낼 수 있으므로 내가 찾고있는 이유를 알 수있다. –
당신 downvote 이유를 정교 할 수 있습니까? –