Lucene .NEt를 사용하여 전체 텍스트 검색을하고 있습니다. 지금까지는 PDF 문서를 색인화했지만 지금은 색인을 생성해야하는 몇 가지 웹 페이지가 있습니다. Lucene 색인에 추가하기 위해 HTML 문서를 색인화하는 가장 좋고/가장 쉬운 방법은 무엇입니까? .NET/C#을 사용 중입니다.어떻게 HTML 문서를 색인 할 수 있습니까?
3
A
답변
-3
Google에서 콘텐츠 색인을 생성 할 수 있습니다.
1
현재이 문제를 해결하기 위해 최선의 답변은 HTML Agility Pack을 사용하여 HTML에서 일반 텍스트 콘텐츠를 가져 오는 것입니다.
관련 문제
- 1. HTML 문서를 선택기 기반 색인 파일로 변환
- 2. 어떻게 소스 코드를 색인 할 수 있습니까?
- 3. MFMailComposeViewController가 XML 문서를 HTML 메시지에 첨부 할 수 있습니까?
- 4. 어떻게하면 자바 스크립트에서 URL에서 HTML 문서를 검색 할 수 있습니까?
- 5. HtmlAgilityPack을 사용하여 HTML 문서를 특정 태그로 분할 할 수 있습니까?
- 6. Flex ExternalInterface : ActionScript에서 HTML 문서를 조사 할 수 있습니까?
- 7. node.js의 XML/HTML 문서를 조작 할 수 있습니까?
- 8. 어떻게 html 캔버스를 "스크롤"할 수 있습니까?
- 9. Xcode 4에서 어떻게 색인 생성을 비활성화 할 수 있습니까?
- 10. Git은 트리에 추가 할 색인 blob을 어떻게 알 수 있습니까?
- 11. 페이지가 매겨진 XML 문서를 어떻게 재구성 할 수 있습니까?
- 12. 특정 기간의 문서를 어떻게 조회 할 수 있습니까?
- 13. 일련의 뷰 외에도 아키텍처 문서를 어떻게 표시 할 수 있습니까?
- 14. Java DOM을 사용하여 전체 문서를 어떻게 복제 할 수 있습니까?
- 15. .rtf 또는 .doc 문서를 어떻게 LaTeX로 변환 할 수 있습니까?
- 16. 정수로 CUDA 텍스처를 색인 할 수 있습니까?
- 17. html 문서의 처음 몇 줄을 어떻게 다운로드 할 수 있습니까?
- 18. mobileme를 사용하여 문서를 동기화 할 수 있습니까?
- 19. HTML/PHP 형식의 Word 문서를 어떻게 표시합니까?
- 20. 큰 HTML 문서를 PDF로
- 21. 문서를 렌더링하는 데 필요한 크기를 어떻게 측정/계산할 수 있습니까?
- 22. ColdFusion에서 Microsoft Word 문서를 PDF로 변환 할 수 있습니까?
- 23. 어떻게 div HTML 요소를 "unstyle"할 수 있습니까?
- 24. HTML 엔터티가있는 XSLT 문자열 - 어떻게 HTML로 렌더링 할 수 있습니까?
- 25. 어레이에서 HTML 타일을 작성하는 루틴을 어떻게 최적화 할 수 있습니까?
- 26. 어떻게 xmlrpc와 함께 html 콘텐츠를 WordPress에 게시 할 수 있습니까?
- 27. PHP SimpleXML : 어떻게 HTML 파일을로드 할 수 있습니까?
- 28. C++에서 HTML 엔티티를 어떻게 디코딩 할 수 있습니까?
- 29. 어떻게 PHP로 공백에서 HTML 암호 태그를 확보 할 수 있습니까?
- 30. html 문서의 문자셋을 어떻게 추측 할 수 있습니까?
Asker *는 Lucene .NET을 사용하고 있다고 명시 할뿐만 아니라 Google을 사용하는 경우에도이 답변에는이를 달성하는 방법에 대한 실제 정보가 없습니다. – Justin