2015-01-16 2 views
1

카테고리에서 제품을 크롤링하고 싶지만 제품 페이지 자체에서 발견 된 링크를 거미가 원하지 않습니다 (관련 제품은 동일한 브랜드이지만 유형이 다릅니다 - 예를 들어 향수입니다). 관련 제품으로 립스틱을 가짐).특정 범주의 치료만으로 링크를 크롤링하고 제품 페이지의 링크를 무시하는 방법?

카테고리의 URL은 site.com/category_name/이고 제품의 URL은 site.com/brand_name/product-name-here/입니다. 크롤링 규칙은 어떻게 정의해야합니까?

+0

그래서이 문제를 직접 풀려고했는데 문제가 발생 했습니까? 몇 가지 코드를 보여줄 수 있습니까? – aberna

+0

나는 단지 치료로 시작하고, 파이썬으로 0 번 경험했으며, 시작하기 위해 열심히 노력하고있다. 나는 내가 일해야 할 시간이별로 없기 때문에 내가해야 할 올바른 길을 알기 위해 주로 질문을 올렸다. 나는 그것이 내가하고 싶은 것을 꽤 기초적이라고 확신하지만, 나를 시작하게하기위한 약간의 지침이 필요하다. – Mihai

답변

0

규칙을 사용하여 이러한 종류의 동작을 정의 할 수 있습니다.

Rule(LinkExtractor(allow=('.*site.com/category_pattern.*',)), 
callback='your_callback', follow=False) 

이렇게하면 제품 페이지로 연결되는 링크가있는 콜백으로 카테고리 페이지가 크롤링됩니다. URL의 카테고리 부분을 식별하기위한 패턴이 필요합니다.

관련 문제