대신 HtmlXPathSelector을 가져 오십시오.
from scrapy.selector import HtmlXPathSelector
다음 HTML을 구문 분석
ALL 기타 사항 서보 -OFF() 방법을 사용합니다. 예를 들어,
sel = HtmlXPathSelector(response)
site_names = sel.select('//ul/li')
당신이 Scrapy 사이트 (http://doc.scrapy.org/en/latest/intro/tutorial.html)에 대한 자습서를 다음과 같은 경우, 업데이트 된 예는 다음과 같습니다이 도움이
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
sel = HtmlXPathSelector(response)
sites = sel.select('//ul/li')
for site in sites:
title = site.select('a/text()').extract()
link = site.select('a/@href').extract()
desc = site.select('text()').extract()
print title, link, desc
희망을!
',
그렇지 않으면 할 새로운 통합 셀렉터 API에 해당한다. http://doc.scrapy.org/en/latest/topics/selectors.html#constructing-selectors (버전 0.19)를 따르는 중이면 소스에서 Scrapy를 설치해야합니다. Scrapy 0.19는 공식적으로 PyPI에서 공개되지 않았습니다. –