2011-07-05 4 views
3

Sitecore의 Lucene 검색 엔진이 PDF 또는 Word 문서를 색인하도록 구성 할 수 있는지 알고 싶습니다. 이 문서 (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)의 Sitecore 지원 사이트를 살펴 보았지만 사용자 지정 코드를 작성하여이 작업을 수행하는 것이 가능하다는 것을 나에게 제안하는 파일 크롤러 클래스를 만드는 것에 대해 언급합니다. 이 할 사용자 지정 코드를 작성해야 할 경우 PDF 문서에서 텍스트 콘텐츠를 추출하려면 일부 API가 있어야합니까?PDF 또는 Word 문서의 Sitecore 텍스트 검색

답변

3

저는 최근 내 프로젝트 중 하나에서 비슷한 것을해야했습니다. How to index Word 2003, 2007 and 2010 documents using Lucene.NET을 살펴보십시오. 사용 IFilter의 내장 할 수-2003 XP MS Office 문서를 인덱싱을 위해

  • :

    나는 MS Office 문서 (XP, 2003,2007 년과 2010 년 형식) 및 PDF 문서를 처리하는 사용자 정의 인덱서를 만들어 결국 운영 체제에 당신은 내가 강력하게 Foxit PDF IFilter를 사용하는 것이 좋습니다 색인 PDF 문서의 경우 Microsoft Office 2010 Filter Packs

  • 를 설치해야합니다 인덱싱 2007-2010 MS Office 문서를
  • (Windows Server 2003 또는 최신을 사용하는 가정). 무료는 아니지만 Adobe PDF IFilter보다 훨씬 뛰어납니다.

참고 : 어도비 PDF IFilter를 사용하여 시간을 낭비하지 마십시오 : 그것은 유효한 PDF 파일을 읽을 실패하고 많은 느린 입니다. Foxit IFilter는 멀티 코어 CPU를 활용하도록 설계되었으며 대용량 문서에서 훨씬 뛰어난 성능을 발휘합니다.

관련 문제