2009-10-23 3 views
0

Ruby 용 크롤러를 작성 중이므로 크롤링 효율을 높이기 위해 서버가 보내는 헤더를 존중하고 싶습니다. Ruby에서 클라이언트가 페이지를 다시 다운로드해야하는지 여부를 결정하는 간단한 방법이 있습니까? 나는 적어도 이러한 헤더 고려할 필요가 알고Ruby에 대한 웹 페이지 수정/만료 여부 확인

  • 마지막으로 수정
  • ETag를을
  • 캐시 제어
  • 이 결정하는 결정적인 방법은 무엇

이 만료 - 그것은 어디서든 지정 ?

답변

1

당신이 바로 당신이 볼 필요가 헤더에있는,하지만 당신은 서버가 이러한 설정을 어떤 것을 고려해야합니다. 설정이 올바르게되어 있다면 결정을 내리기 위해 사용할 수 있지만 그 중 아무 것도 필요하지 않습니다.

개인적으로 나는 처음 다운로드를 할 때 만료 값을 추적하는 것부터 etag를 로깅하는 것으로 시작할 것입니다. 마침내 나는 만료 또는 etag이 내가 다시 다운로드해야 할 수도있는 몇 가지 기호를 보여 주었다고 가정하거나 (심지어 설정되지 않은 경우) 다음 패스를 수행 할 때 마지막으로 수정했습니다. 나는 Cache Control이 모두 유용 할 것이라고 기대하지 않는다.