저는 꽤 잘 작동하는 매우 간단한 크롤링 엔진을 조합했으며 대부분 순환 루프 트랩에 걸리지 않았습니다. (즉, 페이지 A 링크는 페이지 B와 페이지 B는 페이지 A 링크).페이지를 크롤링 할 때 CacheBuster 쿼리를 감지합니다.
두 번째 페이지가 캐시 버스터 쿼리 문자열로 서로 링크 될 때만이 루프에서 멈추게됩니다. 기본적으로 새로 고침 당 각각의 링크마다 고유 한 쿼리 문자열입니다.
이렇게하면 페이지가 항상 크롤러의 새 페이지처럼 보이게되어 크롤러가 두 페이지 사이에서 움직이지 않게됩니다.
질의어가 유일한 차이점 인 두 페이지 사이에 N 개의 바운스가 발생하는 것을 제외하고는 (나는 아주 좋은 접근이라고 생각하지 않습니다.), 이것들을 탐지하고 벗어나는 다른 방법이 있습니까? 트랩...?