scrapy

    0

    2답변

    어떻게 SgmlLinkExtractor에 URL을 추가합니까? 즉, 콜백을 실행하기 위해 임의의 URL을 어떻게 추가합니까? 예로 들어 dirbot을 이용하여 정교 : https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py parse_category 만 SgmlLinkExtracto

    2

    1답변

    request.meta [ 'proxy']를 사용하여 http 프록시를 설정할 수 있지만 프록시 인증은 어떻게합니까? 둘러보고에서 request.meta['proxy'] = 'http://user:[email protected]:2222' , 내가 request.headers [ '프록시 인증을'] 보내야 할 수도 있지만, 어떤 형식 나는 그것을 보내

    0

    2답변

    규칙을 만드는 동안 문제가 발생합니다. <html><head>...</head><body> <ul id="results-list"> <li class="result clearfix news"> <div class="summary"> <h3><a href="/sports/hockey/struggling-canucks-rely-on-schneider-t

    3

    3답변

    Windows XP를 실행하는 직장에서 PC에 치료를 설치하고 실행하려고했습니다. 나는 다음과 같은 오류가 발생합니다 scrapy의 startproject MyProject를 실행하는 경우 : ImportError: No module named w3lib.html 를 갔었 : 그것은 윈도우 XP에 파이썬/Scrapy를 실행 정말 귀찮은. 리눅스에서 나는

    9

    2답변

    나는 치료법을 설치하고 간단한 dmoz tutorial을 따른다. 난 그냥 파이썬에 대한 기본 파일 처리를 쳐다 보면서 크롤러가 URL 목록을 파일에서 읽으려고했으나 오류가 발생했습니다. 이것은 틀린 것이지만 나는 그것을 한방에 줬다. 누군가가 나를 URL 목록을 읽는 예를 보여 주시겠습니까? 미리 감사드립니다. from scrapy.spider impor

    3

    1답변

    토글 할 수있는 설정이 있습니까? 아니면 DownloaderMiddleware을 사용하면 robots.txt의 크롤링 지연 설정을 적용 할 수 있습니까? 그렇지 않은 경우 스크레이퍼 내에서 속도 제한을 어떻게 구현합니까?

    1

    1답변

    CrawlSpider를 사용하여 웹 페이지에서 데이터를 크롤링하고 추출합니다. 시작 URL에는 하나의 링크 (직접 링크)가 있으며 해당 링크에서 데이터를 스크랩해야합니다 (BaseSpider를 사용하고 직접 링크를 제공하면 데이터가 성공적으로 스크랩됩니다). 그러나, CrawlSpider를 실행하면, 301을 요구하고 컨트롤이 파싱을 수행하는 parse_i

    2

    1답변

    내가 긁고 싶은 URL 목록이 있습니다. 3000 개입니다. 각 URL마다 세 단계 깊숙이 가고 싶지만 외부 URL로 이동하고 싶지는 않습니다. 내 시작 목록의 도메인 내 링크 만 있습니다. 단지 몇 가지 URL로이 작업을 수행하기를 원한다면 allowed_domains 목록을 채우기 만하면됩니다. 3000 개 URL을에 도착하면 그러나, allowed_d

    3

    1답변

    나는 Scrapy를 사용하여 웹 페이지를 긁어 냈고 특정 개체에서 배경색을 추출해야합니다. inline-css가 DOM의 일부가 아니거나 읽었으므로 현재 XPath를 보완하고 객체의 스타일 속성에서 필요한 값을 선택하는 정규 표현식을 만들어야합니다. 나의 현재 XPath는 전체 스타일의 값과 같이 반환 배경 : # 80FF00, 높이 : 48px; 폭 :

    6

    1답변

    을 다음과 근근이 살아가고있다 : YYYY는 올해 http://example.com/YYYY/DDDD/index.htm이며, DDDD는 3 자리 또는 4 자리 발행 번호입니다. 전 단지 928 문제 만 원하고 아래에 제 규칙이 있습니다. 사이트에 연결하거나, 링크를 크롤링하거나, 항목을 추출하는 데 문제가 없습니다 (나머지 코드는 포함하지 않았습니다). 거