작년에 검색 엔진을위한 크롤러를 만들고 있었고 페이지 최신성을 처리하는 데 문제가있었습니다. 페이지가 시간이 지남에 따라 바뀌므로이 변경 사항을 추적하고 콘텐츠 변경 사실을 알게되면 해당 페이지를 다시 크롤링해야합니다.페이지 최신 성을 처리하는 방법 크롤러에서?
그래서 우리는 우리 교수에게이 문제에 대한 해결책을 물었고 그는이 페이지의 사이트 맵을 찾아 달라한다고했습니다. 모든 페이지에이 문제를 해결하는 데 도움이 될 수있는 사이트 맵이있는 것은 아니며, 임의의 시간 값을 사용하여 모든 것을 다시 크롤링하는 이상한 해결책을 우리에게 말했습니다.
그건 내가 문제를 조사해 보았고 도움이 될만한 것을 찾지 못했다고 말했습니다. 그래서 최소한의 효율성으로이 문제를 해결하기 위해 크롤링 한 모든 페이지의 해시 값을 저장 한 다음이 임의의 시간 후에 다시 크롤링 할 때 현재 페이지 해시 값을 확인하고 마지막으로 저장된 해시 값을 비교합니다. 차이가 있다면이 페이지를 다시 크롤링합니다. 페이지가 규칙을 사용하거나하지 않는 경우
내가 페이지 최신 성을
내가 페이지를 해시하는 데 사용한 기술은 실제로 사용 되었습니까? 또는 그들은 일반적으로 마지막 수정 및 ETag 확인에 집중합니까? – AerRayes
대체 fallback 전략은 좋지 않지만 대부분의 사람들은 etags를 사용하여 수정했습니다. – Paul