2011-03-23 6 views
1

나는 웹 사이트를 크롤링하고, 데이터를 수집하고, 색인을 생성하고, 내 애플리케이션 내에서 검색 할 수 있도록 해주는 도구와 같은 검색 엔진을 연구 중이다.
Net::HTTP 또는 Hpricot을 사용하여 웹 사이트를 크롤링합니다.
크롤링중인 사이트는 포럼이며, 각 스레드에 대한 조회수와 응답 수가 유지됩니다. 언제든지 크롤링하여 조회수가 증가 할 것입니다.페이지 뷰를 늘리지 않고 웹 크롤링

이 문제를 방지 할 수있는 방법이 있습니까? 조회수를 늘리지 않고 검색 엔진이 어떻게 크롤링합니까?

답변

1

원격 사이트가 카운터를 증가시키는 방법에 따라 다릅니다. 그들이 User-Agent 헤더를 고려한다면 그것을 활용할 수 있습니다. Google 애널리틱스와 같이 자바 스크립트를 통해 카운터가 증가하면 Net::HTTP은 변경 사항을 트리거해서는 안됩니다.

관련 문제