Sitecore의 Lucene 검색 엔진이 PDF 또는 Word 문서를 색인하도록 구성 할 수 있는지 알고 싶습니다. 이 문서 (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)의 Sitecore 지원 사이트를 살펴 보았지만 사용자 지정 코드를 작성하여이 작업을 수행하는 것이 가능하다는 것을 나에게 제안하는 파일 크롤러 클래스를 만드는 것에 대해 언급합니다. 이 할 사용자 지정 코드를 작성해야 할 경우 PDF 문서에서 텍스트 콘텐츠를 추출하려면 일부 API가 있어야합니까?PDF 또는 Word 문서의 Sitecore 텍스트 검색
3
A
답변
3
저는 최근 내 프로젝트 중 하나에서 비슷한 것을해야했습니다. How to index Word 2003, 2007 and 2010 documents using Lucene.NET을 살펴보십시오. 사용 IFilter
의 내장 할 수-2003 XP MS Office 문서를 인덱싱을 위해
- :
나는 MS Office 문서 (XP, 2003,2007 년과 2010 년 형식) 및 PDF 문서를 처리하는 사용자 정의 인덱서를 만들어 결국 운영 체제에 당신은 내가 강력하게 Foxit PDF IFilter를 사용하는 것이 좋습니다 색인 PDF 문서의 경우 Microsoft Office 2010 Filter Packs
- 를 설치해야합니다 인덱싱 2007-2010 MS Office 문서를
- (Windows Server 2003 또는 최신을 사용하는 가정). 무료는 아니지만 Adobe PDF IFilter보다 훨씬 뛰어납니다.
참고 : 어도비 PDF IFilter를 사용하여 시간을 낭비하지 마십시오 : 그것은 유효한 PDF 파일을 읽을 실패하고 많은 느린 입니다. Foxit IFilter는 멀티 코어 CPU를 활용하도록 설계되었으며 대용량 문서에서 훨씬 뛰어난 성능을 발휘합니다.
관련 문제
- 1. PDF 문서의 텍스트 숨기기 iPhone xcode
- 2. 텍스트 검색 PDF
- 3. Word 문서의 텍스트 글꼴 색상 변경
- 4. Word 문서의 매크로를 텍스트 파일로 추출 C#
- 5. Word 문서의 키워드 자동 업데이트
- 6. Word 문서의 속성 편집
- 7. Word 문서의 텍스트를 머리글로 대체
- 8. Word 문서의 사용자 지정 XML
- 9. PDF 문서의 항목 이동
- 10. pdf 문서의 바코드 생성자
- 11. PHP로 Word 문서의 값 채우기
- 12. VSTO Word 문서의 ContentControls를 찾습니다.
- 13. 특정 문서의 lucene 검색
- 14. Word 문서의 텍스트를 자바 텍스트 구성 요소로 드래그합니까?
- 15. MS Word 문서의 책갈피에 하이퍼 링크
- 16. 프로젝트 생각 : PDF 디렉토리 검색
- 17. Ruby를 사용하여 Word 문서의 TextBox 개체 텍스트에 액세스하는 방법 WIN32OLE
- 18. Word/PDF 문서를 파일 시스템에서 SQL Server로
- 19. PDF 문서의 스냅 샷 이미지
- 20. 아랍어로 된 Jackrabbit 텍스트 검색 PDF 파일
- 21. pdf 파일 텍스트 읽기 및 검색
- 22. sitecore 쿼리를 사용하여 항목 검색
- 23. 검색 가능한 PDF 파일 (이미지 + 텍스트 PDF) 확인
- 24. Word Editor 패턴 검색
- 25. 왜 Perl과 Word VBA에서 Word 문서의 페이지 수가 다른가요?
- 26. 대용량 문서의 텍스트 분석
- 27. Word, PDF Rails를 사용하여 업로드
- 28. Word 문서를 PDF - Python으로 변환
- 29. HTML 콘텐츠 - Word 문서의 페이지 크기 알기
- 30. Word 문서의 특정 섹션/페이지에 대한 URL