scrapy

0열

2답변

어떻게 SgmlLinkExtractor에 URL을 추가합니까? 즉, 콜백을 실행하기 위해 임의의 URL을 어떻게 추가합니까? 예로 들어 dirbot을 이용하여 정교 : https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py parse_category 만 SgmlLinkExtracto

2열

1답변

Scream HTTP 프록시 인증

request.meta [ 'proxy']를 사용하여 http 프록시를 설정할 수 있지만 프록시 인증은 어떻게합니까? 둘러보고에서 request.meta['proxy'] = 'http://user:[email protected]:2222' , 내가 request.headers [ '프록시 인증을'] 보내야 할 수도 있지만, 어떤 형식 나는 그것을 보내

0열

2답변

Scrapy Python에서 규칙을 만드는 방법은 무엇입니까?

규칙을 만드는 동안 문제가 발생합니다. <html><head>...</head><body> <ul id="results-list"> <li class="result clearfix news"> <div class="summary"> <h3><a href="/sports/hockey/struggling-canucks-rely-on-schneider-t

3열

3답변

Windows XP에서의 치료 ImportError : w3lib.html이라는 모듈 없음

Windows XP를 실행하는 직장에서 PC에 치료를 설치하고 실행하려고했습니다. 나는 다음과 같은 오류가 발생합니다 scrapy의 startproject MyProject를 실행하는 경우 : ImportError: No module named w3lib.html 를 갔었 : 그것은 윈도우 XP에 파이썬/Scrapy를 실행 정말 귀찮은. 리눅스에서 나는

9열

2답변

파일에서 스크래핑 된 URL의 치료 목록을 읽으시겠습니까?

나는 치료법을 설치하고 간단한 dmoz tutorial을 따른다. 난 그냥 파이썬에 대한 기본 파일 처리를 쳐다 보면서 크롤러가 URL 목록을 파일에서 읽으려고했으나 오류가 발생했습니다. 이것은 틀린 것이지만 나는 그것을 한방에 줬다. 누군가가 나를 URL 목록을 읽는 예를 보여 주시겠습니까? 미리 감사드립니다. from scrapy.spider impor

3열

1답변

Scrapy 스크래퍼가 robots.txt의 Crawl-Delay를 존중하는 가장 쉬운 방법은 무엇입니까?

토글 할 수있는 설정이 있습니까? 아니면 DownloaderMiddleware을 사용하면 robots.txt의 크롤링 지연 설정을 적용 할 수 있습니까? 그렇지 않은 경우 스크레이퍼 내에서 속도 제한을 어떻게 구현합니까?

1열

1답변

스 피리 릭이 직접 링크를 리디렉션합니다.

CrawlSpider를 사용하여 웹 페이지에서 데이터를 크롤링하고 추출합니다. 시작 URL에는 하나의 링크 (직접 링크)가 있으며 해당 링크에서 데이터를 스크랩해야합니다 (BaseSpider를 사용하고 직접 링크를 제공하면 데이터가 성공적으로 스크랩됩니다). 그러나, CrawlSpider를 실행하면, 301을 요구하고 컨트롤이 파싱을 수행하는 parse_i

2열

1답변

치료 중에 내부 링크 만 허용

내가 긁고 싶은 URL 목록이 있습니다. 3000 개입니다. 각 URL마다 세 단계 깊숙이 가고 싶지만 외부 URL로 이동하고 싶지는 않습니다. 내 시작 목록의 도메인 내 링크 만 있습니다. 단지 몇 가지 URL로이 작업을 수행하기를 원한다면 allowed_domains 목록을 채우기 만하면됩니다. 3000 개 URL을에 도착하면 그러나, allowed_d

3열

1답변

Python 정규식 - 주변 패턴을 기반으로 값 선택

나는 Scrapy를 사용하여 웹 페이지를 긁어 냈고 특정 개체에서 배경색을 추출해야합니다. inline-css가 DOM의 일부가 아니거나 읽었으므로 현재 XPath를 보완하고 객체의 스타일 속성에서 필요한 값을 선택하는 정규 표현식을 만들어야합니다. 나의 현재 XPath는 전체 스타일의 값과 같이 반환 배경 : # 80FF00, 높이 : 48px; 폭 :

6열

1답변

Scrapy가 나는 CrawlSpider은 다음과 같은 특정 링크를 설정하고 각 문제에 대한 링크는 다음 URL 방식에 따라 뉴스 잡지 긁어 한 비 허용 링크

을 다음과 근근이 살아가고있다 : YYYY는 올해 http://example.com/YYYY/DDDD/index.htm이며, DDDD는 3 자리 또는 4 자리 발행 번호입니다. 전 단지 928 문제 만 원하고 아래에 제 규칙이 있습니다. 사이트에 연결하거나, 링크를 크롤링하거나, 항목을 추출하는 데 문제가 없습니다 (나머지 코드는 포함하지 않았습니다). 거