변경 사항을 모니터링하는 웹 사이트가 어떻게 작동하고 그 뒤에 사용되는 개념이 무엇인지 이해하려고합니다. 전체 웹 사이트를 크롤링하고 크롤링 된 웹 페이지를 데이터베이스의 한 저장소와 비교하고 웹 페이지가 업데이트 된 경우 html로 기존 페이지를 덮어 쓰거나 웹 사이트가없는 경우 데이터베이스에 저장하는 크롤러를 만들 수 있습니다. 내 질문은 다음과 같습니다. 1- 두 웹 페이지가 동일한 경우 어떻게 비교할 수 있습니까? 웹 페이지 문자의 문자열을 문자별로 비교해야합니까? 2 전체 웹 사이트를 크롤링해야합니까? 웹 사이트의 html 페이지 크기가 5Gb라고 가정 해 보겠습니다. 매시간 5GB의 데이터를 크롤링하고 다운로드하면 많은 대역폭을 먹을 것입니다.웹 사이트 모니터링은 어떻게 작동합니까?
코드를 작성할 수 있습니다. 웹 사이트 모니터링에 사용되는 일반적인 방법을 알고 싶습니다.
고맙습니다.
변경 사항을 결정하기 위해 Last-Modification 헤더를 사용한다고 생각합니다. 그리고 크롤링 요청이 있으면 다시 크롤링합니다. –