2010-05-18 6 views
0

나는 주어진 사이트에서 사용자가 입력 한 키워드를 검색하는 도구를 개발 중입니다. 내 문제는 HTML/웹 페이지에서만 키워드를 검색하지만 사이트에서 발견 된 PDF/MS-Word 파일에서는 검색하지 않는다는 것입니다.pdf 내 크롤링

누구나 저에게 some api/tool을 제안하거나 주어진 온라인 PDF/MS-Word/Text 파일에서 텍스트를 검색 할 수있는 코드를 제공 할 수 있습니까?

답변

0

아마 단어 파일에 Antiword을 사용할 수 있습니다.

pdftotext은 pdf 파일 용으로 사용할 수 있습니다. APT를 통해 사용할 수

두 명령 : sudo apt-get install xpdf-utils antiword

+0

하지만 파일을 다운로드하고 싶지는 않지만 키워드가있는 파일 만 다운로드하고 싶습니다. 의미는 PDF에 온라인으로 검색하고 PDF에 해당 키워드가 포함되어있는 경우에만 다운로드해야합니다 (사용자가 검색 중임). – Saubhagya

+0

와우 .. 솔직히 파일을 다운로드하지 않고도 파일에서 키워드를 검색 할 수 있다고 생각하십니까 ?? 실제 검색은 분명히 서버에서 수행되어야합니다. – aioobe

0

JVM상에서 실행 아무것도 개발, 당신이 아마 가장 잘하는 .pdfs을 구문 분석, MS Office 문서 구문 분석 및 PDFBox에 대한 JPedal 또는 PDF Clown을 POI를 사용하는 것입니다.

일반 색인 생성의 경우 lucenenutch으로 놓칠 수 있습니다.