2010-05-19 2 views
4

텍스트를 추출하기 위해 .doc 파일 (및 .odt와 같은 유사한 형식)을 구문 분석하기위한 좋은 라이브러리를 알고 있는지, 웹 사이트에 표시 할 수있는 곳에서 서식 지정 정보를 유지하는지 궁금합니다..doc 파일을 구문 분석하기위한 루비 라이브러리?

PDF와 비슷하게 수행 할 수있는 기능은 보너스이지만,별로 좋아 보이지 않습니다.

이것은 레일스 프로젝트에서 유용합니다.

미리 감사드립니다.

답변

2

Apache의 POI은 Word 및 Excel 문서에 액세스하기위한 매우 보편적 인 방법입니다. 조사 할만한 가치가있는 Ruby POI binding가 있지만 직접 제작해야하는 것처럼 보입니다. 그리고 API는 자바 코드의 직접적인 포트이기 때문에 루비처럼 보이지 않습니다. 그리고 Ruby 1.8.2에 대해서만 테스트 된 것 같습니다.

+0

대단히 죄송합니다. 나는 그것을 조사 할 것이다. (+1) –

+0

@PlatinumAzure 2010 년부터 바뀌 었나요? 감사. – Nishant

관련 문제