2009-12-17 5 views
3

Lucene .NEt를 사용하여 전체 텍스트 검색을하고 있습니다. 지금까지는 PDF 문서를 색인화했지만 지금은 색인을 생성해야하는 몇 가지 웹 페이지가 있습니다. Lucene 색인에 추가하기 위해 HTML 문서를 색인화하는 가장 좋고/가장 쉬운 방법은 무엇입니까? .NET/C#을 사용 중입니다.어떻게 HTML 문서를 색인 할 수 있습니까?

답변

-3

Google에서 콘텐츠 색인을 생성 할 수 있습니다.

+0

Asker *는 Lucene .NET을 사용하고 있다고 명시 할뿐만 아니라 Google을 사용하는 경우에도이 답변에는이를 달성하는 방법에 대한 실제 정보가 없습니다. – Justin

1

현재이 문제를 해결하기 위해 최선의 답변은 HTML Agility Pack을 사용하여 HTML에서 일반 텍스트 콘텐츠를 가져 오는 것입니다.

관련 문제