0
가격 비교를 위해 온라인 상점을 크롤링하고 있습니다. 상점의 Mot는 동적 URL을 많이 사용하고 있습니다. 이로 인해 내 크롤러가 모든 온라인 상점에서 많은 시간을 보내고 있습니다. 대부분이 5 ~ 6k 개의 고유 한 제품 만 가지고 있지만 고유 URL> = 300k가 있습니다. 어떤 생각이든이 문제를 해결하는 방법.온라인 상점을 크롤링하는 동안 동적 URL을 처리하는 방법은 무엇입니까?
미리 감사드립니다.
내가 뭘 하려는지 - 온라인 상점을위한 모든 제품을 찾으십시오. 제품 페이지를 식별하는 방법을 알고 있습니다. 문제는 제품에 대한 링크가 포함되어있을 수 있기 때문에 모든 URL을 방문 할 때까지 모든 제품을 확인한 것입니다. 또한 나는 이미 크롤링 된 URL을 방문하지 않고있다. – user1276102
아마존과 비슷한 문제가있다. 카테고리 URL에는 'query'(또는 유사)라는 추가 인수가 여러 번 있는데, 항상 다른 값을 갖습니다. 카테고리 페이지에서 다루려고하지 않았습니다. 그러나 수동으로 이러한 URL을 정리하고 어딘가에 저장할 수 있으며 자신의 중복 된 미들웨어를 작성하여 저장된 URL을 사용할 수 있습니다. 아니면 그대로두고 그대로 제품 id 만 사용하면됩니다. url에서 추출한 제품 ID가 이미 추출 된 db (또는 메모리)에 저장되어 있지 않은 경우에만 제품 ID 페이지를 요청하십시오. – warvariuc
고마워, 바로 내가 직면하고있는 문제. 나는 다른 생각을 생각해야 할 것이다. 경험을 공유해 주셔서 감사합니다! – user1276102