scrapy

2열

1답변

특정 검색 항목을 가져 와서 결과에 관련된 .CSV 파일 전체를 저장하는 크롤러를 작성하려고합니다. 나는 이미 필요한 모든 HTML 데이터를 구문 분석하는 스파이더를 가지고 있으며, 지금 내가해야 할 일은 필요한 파일을 어떻게 저장할 수 있는지를 파악하는 것입니다. 그래서 검색은 다음 웹 브라우저에 상관 .csv 파일을 저장하라는 메시지를 표시이 https

0열

3답변

POST 요청 (인코딩 됨)을 통해 로그인을 시뮬레이션하는 데 스쿠버를 사용하는 방법

www.eoddata.com과 같은 사이트에서 로그인을 시뮬레이션 할 수 있습니까? 웹 사이트는 게시물 요청을 사용하여 로그인 정보를 제출합니다. 수도

1열

1답변

국제 텍스트의 치료 문제

나는 치료법을 사용하여 웹 페이지에서 텍스트를 긁어 냈습니다. 거미, 나는 코드처럼이 : 여기 title = hxs.select("//h1/text()").extract() #1 final_text = title[0].encode('utf-8') #2 문제 라인 # 1 [u'Puerto 금지 \의 xfas '] 라인 # 2 푸에르토 반을 제공을 제공입

0열

2답변

Scrapy : 다른 .cfg 파일 사용

기본적으로 Scrapy는 프로젝트 루트에서 scrapy.cfg를 사용합니다. 다른 .cfg 파일을 사용하도록 지시 할 수 있습니까?

1열

2답변

Python 2.7에서 실행되도록 Scrapy 프레임 워크 설정

Scrapy에서 사용되는 Python 버전을 선택할 수 있습니까? 나는 Python 2.6과 함께 제공되는 Ubuntu 10.04에서 Scrapy를 실행 중이다. 내 컴퓨터에 Python 2.7이 설치되어 있고 이후 버전의 일부 기능을 활용하고 싶지만 2.7에서 실행되도록 Scrapy를 설정하는 방법을 모릅니다. 터미널에 "python"을 입력하면 Pyth

11열

3답변

치료 CrawlSpider를 중지하고 나중에 중단 된 부분부터 다시 시작할 수 있습니까?

크롤링 할 매우 큰 URL 목록이있는 CrawlSpider의 Scrapy가 있습니다. 나는 그것을 멈추고, 현재 상태를 저장하고, 다시 시작하지 않고 나중에 다시 시작할 수 있기를 원합니다. Scrapy 프레임 워크에서이를 수행 할 수있는 방법이 있습니까?

0열

1답변

하위 서버에서 서버를 검색

루트 서버에 http://my.root.iphttp://my.root.ip:6800에서 실행중인 치료 서버가 있습니다. http://scrapy.mydomain.com과 같은 하위 도메인에서 http://my.root.ip:6800 액세스 가능하게하고 싶습니다. 나는 가상 호스트 파일을 설정할 수 있고 내 서버의 문서 루트를 가리킬 수 있지만 실제로 서버에

0열

1답변

치료는 기본적으로 HTTP 1.0을 사용하고 있습니다.

Scrapy는 기본적으로 HTTP 1.0을 사용하고있는 것 같습니다. 요청을 보내기 위해 HTTP 1.1을 사용하도록하는 설정이 있습니까? 감사합니다. http://dev.scrapy.org/wiki/ScrapyRecipes에서

1열

1답변

Google에서 검색하여 특정 도메인에 대한 링크를 크롤링하는 방법은 무엇입니까?

나는 인도 노래의 가사를 가지고 있으며, 내가 작업하고있는 실험을 위해 발매 연도를 태그해야한다. 웹 사이트 (lyricsindia.net)에는 몇 년 동안이 가사의 철저한 데이터베이스가 있지만 불행히도 가사는 웹 사이트에서 검색 할 수 없습니다. 대신에 가사의 일부로 검색 문자열로 google을 검색하면 lyricsindia.net의 노래에 대한 링크가

-1열

1답변

Scrapy "parse"함수가 실행되고 있지 않습니다.

저는 우분투 11에서 치료법을 사용하기 시작했습니다. 단말은 단말 [email protected]:~/Desktop/ScrappyTest/basetest$ sudo scrapy crawl go4mumbai.com 2011-09-21 15:33:56+0530 [scrapy] INFO: Scrapy 0.12.0.2528 started (bot: basetes