2009-09-17 9 views
2

VSTS 2008 + C# + .Net 3.5를 사용 중입니다. 웹 사이트의 모든 웹 페이지를 크롤링하는 도구 (오픈 소스)를 찾고 싶습니다.이 웹 사이트와 연결된 다른 도메인 페이지의 경우 해당 크롤링을 건너 뛰고 싶습니다 (이 특정 도메인의 페이지 만 필요함). 만). 크롤링 된 웹 페이지의 경우 로컬 파일 디렉토리에 저장하려고합니다..Net 기반 웹 크롤러 샘플

샘플 또는 오픈 소스 도구를 사용할 준비가 되셨습니까?

답변

4

이 당신이 찾고있는 것일 수도 있습니다.

+0

좋은 물건, 우리는 전체 텍스트 분석 결과에 대해 질의를 할 수 있도록 웹 기반의 인터페이스가있다? – George2

+0

안녕하세요 스티브, 영어가 아닌 언어에 대한 Arachnode.net은 얼마나 좋은가요? 프랑스, 일본과 같은 en-us 언어에 대한 색인/검색 경험이 있습니까? 그러한 언어에 필요한 플러그인은 무엇입니까? (키워드 추출, 색인 생성 및 구문 분석이 언어마다 다를 수 있다고 생각하십니까?) – George2

+0

스티브, 도와 줘서 고마워! 귀하의 회신을 답변으로 표시했습니다. – George2

3

저는 AN의 저자입니다.

AN은 기본적으로 모든 언어의 색인을 생성합니다. 아무것도 구성 할 필요가 없습니다.

  • 마이크
+0

http://arachnode.net/ –

+0

검색 결과를 검사 할 수있는 웹 및 서비스 인터페이스가 있습니다. 위키 페이지가 AN 용으로 삭제되는 것은 정말 실망 스럽습니다. 이 페이지는 누군가가 그것을 표시 할 때까지 거의 1 년 동안 존재했습니다. AN에는 수천 명의 사용자가 있지만 많은 사용자는 상업적 목적으로 AN을 사용합니다. AN이 많은 비즈니스의 기반이되면 사용자는 데이터를 얻는 방법을 폭로하는 것을 다소 주저합니다. 물론 이런 종류의 링크는 Wikipedia가 '주목할만한'것을 고려하기 위해 찾는 것입니다. 그리고 주목할만한 사실은 상업성을위한 응용 프로그램의 경우 주목할만한 가치가 있다고 생각합니다. –

+0

또한 Wikipedia의 사회자에 의한 개인 선택은 기사 포함에 영향을 주며 Web_Crawler 카테고리 (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers)의 다른 크롤러 (예 : http : //en.wikipedia .org/wiki/Aspseek는 AN과 같이 '주목할만한'존재입니다. ::마이크 –