나는 일반적으로 치료 및 파이썬에 대해 처음이지만, 실제로 배우기를 원하며 나는 많은 노력을 기울였다. eb5info.com을 크롤링하고 개별 지역 센터를 선택하고 각각에서 전화 번호와 이메일을 복사하려고합니다. 그러나 크롤링 할 때 0 개의 웹 사이트가 크롤링되었음을 알립니다. 어떤 도움이라도 대단히 감사하게 될 것입니다!scrapy/python으로 웹을 크롤링하여 연락처 정보 추출
여기 내 거미입니다 : 여기
from scrapy.item import Item, Field
class Eb5Item(Item):
description = Field()
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from parser_module.items import Eb5Item
class Eb5Spider(CrawlSpider):
name = 'eb5'
allowed_domains = ["eb5info.com"]
start_urls = ["http://eb5info.com/regional-centers"]
rules = (Rule(SgmlLinkExtractor(allow=[r'regional-centers/*$']), callback='parse_item'),)
def parse_item(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li/a/@href')
items = []
for site in sites:
item = Eb5Item()
item['url'] = response.url
item['phone'] = site.select("()").extract()
items.append(item)
return (items)
을 그리고 내 항목은 파일입니다
from scrapy.item import Item, Field
class Eb5Item(Item):
# define the fields for your item here like:
name = Field()
email = Field()
name = Field()
description = Field()
phone = Field()
pass
너무 감사합니다!
나는 당신이 당신의 질문을 삭제하고 그것을 재 게시 한 것을 본다. 명확한 차이가 없다면 그렇게하지 않는 것이 좋습니다. – Manhattan
불편을 끼쳐 드려 죄송합니다. 본인은이 웹 사이트에 처음 오신 동안 실수로 내 문제의 해결책으로 편집을 표시했으며 일반적으로 내 질문은 해결 된 상태로 등록 될 것을 우려했습니다. –