0
URL 구조를 모르는 사이트에서 Scrapy를 사용하려고합니다.조건부 URL 스크래핑 (Scrap)
나는 싶습니다 : XPath는 포함 된 페이지에서
만 데이터를 추출 "// DIV [@ 클래스 ="제품보기 "]". (CSV)에
추출물 인쇄의 URL, 이름과 가격 XPath의
나는 아래의 스크립트를 실행하면, 내가 할 모든 URL의
scrapy crawl dmoz>test.txt
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
DOMAIN = 'site.com'
URL = 'http://%s' % DOMAIN
class MySpider(BaseSpider):
name = "dmoz"
allowed_domains = [DOMAIN]
start_urls = [
URL
]
def parse(self, response):
for url in response.xpath('//a/@href').extract():
if not (url.startswith('http://') or url.startswith('https://')):
url= URL + url
if response.xpath('//div[@class="product-view"]'):
url = response.extract()
name = response.xpath('//div[@class="product-name"]/h1/text()').extract()
price = response.xpath('//span[@class="product_price_details"]/text()').extract()
yield Request(url, callback=self.parse)
print url