2012-03-17 4 views
0

가격 비교를 위해 온라인 상점을 크롤링하고 있습니다. 상점의 Mot는 동적 URL을 많이 사용하고 있습니다. 이로 인해 내 크롤러가 모든 온라인 상점에서 많은 시간을 보내고 있습니다. 대부분이 5 ~ 6k 개의 고유 한 제품 만 가지고 있지만 고유 URL> = 300k가 있습니다. 어떤 생각이든이 문제를 해결하는 방법.온라인 상점을 크롤링하는 동안 동적 URL을 처리하는 방법은 무엇입니까?

미리 감사드립니다.

답변

0

일부 제품 페이지를 구문 분석하는 경우 일반적으로 이러한 URL에는 일종의 제품 ID가 있습니다.

URL에서 제품 ID를 추출하는 패턴을 찾고 이미 방문한 URL을 필터링하는 데 사용하십시오.

+0

내가 뭘 하려는지 - 온라인 상점을위한 모든 제품을 찾으십시오. 제품 페이지를 식별하는 방법을 알고 있습니다. 문제는 제품에 대한 링크가 포함되어있을 수 있기 때문에 모든 URL을 방문 할 때까지 모든 제품을 확인한 것입니다. 또한 나는 이미 크롤링 된 URL을 방문하지 않고있다. – user1276102

+0

아마존과 비슷한 문제가있다. 카테고리 URL에는 'query'(또는 유사)라는 추가 인수가 여러 번 있는데, 항상 다른 값을 갖습니다. 카테고리 페이지에서 다루려고하지 않았습니다. 그러나 수동으로 이러한 URL을 정리하고 어딘가에 저장할 수 있으며 자신의 중복 된 미들웨어를 작성하여 저장된 URL을 사용할 수 있습니다. 아니면 그대로두고 그대로 제품 id 만 사용하면됩니다. url에서 추출한 제품 ID가 이미 추출 된 db (또는 메모리)에 저장되어 있지 않은 경우에만 제품 ID 페이지를 요청하십시오. – warvariuc

+0

고마워, 바로 내가 직면하고있는 문제. 나는 다른 생각을 생각해야 할 것이다. 경험을 공유해 주셔서 감사합니다! – user1276102

관련 문제