2013-08-29 2 views
1

내 치료 거미는 모든 웹 페이지의 제목을 보여줍니다. 제목 및 해당 제목과 관련된 링크를 표시하는 방법을 알려주십시오. 구문 분석을 수행하려면 this 페이지가 필요합니다. 내 코드 :치료 출력 제목 및 관련 링크

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from probe1.items import SpiderItem 

class SpiderSpider(CrawlSpider): 
    name = "spider" 
    allowed_domains = ["WEB_PAGE"] 
    start_urls = [ 
    "http://www.WEB_PAGE" 
    ] 

    rules = (
     Rule(
      SgmlLinkExtractor(allow_domains=("WEB_PAGE",)), 
      callback='parse_page', follow=True 
     ), 
    ) 


    def parse_page(self, response): 
     hxs = HtmlXPathSelector(response) 
     print hxs 
     sites = hxs.select('//title') 
     items = [] 
     for s in sites: 
     item = SpiderItem() 
      item['title'] = s.select('//title').extract 
      items.append(item) 
     return items 

답변

1

response.url는 당신이 필요로하는 것을 포함

URL

응답의 URL을 포함하는 문자열입니다.