2010-05-04 4 views
-1

동적 페이지/쿼리가있는 웹 사이트를 크롤링하는 사람은 누구입니까? 특정 링크를 클릭하면 웹 브라우저에서 다시로드하려고 할 때마다 다른 값을 갖게됩니다. 이제 웹 크롤러가이 페이지의 내용을 다운로드 할 수 없었습니다. 제발 조언.WebCrawling 동적 링크

답변

0

크롤러 작성 방법이나 좋은 크롤러가 포함 된 http://searcharoo.net/의 소스 코드 (here 참조)에 대한 자세한 내용은 this을 참조하십시오.

+0

안녕하세요 Kane, 답장을 보내 주셔서 감사합니다. Searcharoo는 흥미 롭습니다. 그러나 동적 링크에서 페이지를 다운로드하는 방법을 정확히 파악할 수있는 사람이 있다면 큰 도움이 될 수 있습니다. Searcharoo의 코드를 보면 건축물을 이해하는 데 약간의 시간이 걸릴 수 있습니다. – Jojo

1

동적 인 경우에도 마찬가지입니다. 실제로 크롤러는 3 일

  1. URL입니다
  2. 그 다음
  3. 인증의 그

를 필요한 경우 쿠키 게시물 방법 인 경우가 서버로 전송 된 데이터 만 이잖아요입니다 모든

일반적인 문제

일 크롤러 :

  1. 기본 페이지 [index.html, index.php, default.aspx 등]의 미스 - 추측. 실제로 모든 메소드 [POST/GET]에 대해 작동하지 않습니다.
  2. 각 필드 이름 중 하나가 정확히 쓰여지지 않습니다.
  3. ASP.Net 양식 viewstate ID 필드 (이름을 잊어 버렸습니다.)하지만 쉽게 얻을 수 있습니다.
  4. 동적 페이지 javascript에 의해 생성됩니다. 이 하나는 가장 힘든 부분이며 대부분의 경우에도 Google은 여전히 ​​이것에 대해 문제가 있습니다.

희망 하시길 바랍니다.