Q

루비에서 파이썬으로 이동 : 크롤러

2012-10-15 7 views 1 likes

1

저는 지난 며칠 동안 파이썬을 배우기 시작했습니다. 파이썬에서 크롤러를 작성하는 것과 동일한 방법을 알고 싶습니다.루비에서 파이썬으로 이동 : 크롤러

그래서 루비에서 나는 사용 URL에서 JSON 데이터를 가져 오기위한

Net::HTTP 및 Net::HTTP::Get.new(uri.request_uri).body을 HTML을 크롤링 및 CSS 태그를 통해 컨텐츠를 얻기를위한

nokogiri는

다음의 등가물 무엇인가 파이썬으로?

2012-10-15 Matilda

+0

치료 프로젝트를 살펴보십시오. – zsquare

+0

@zsquare - Scrapy는 흥미로운 프로젝트이지만 불행하게도 문제를 해결하지 못합니다. – pguardiario

+1

@pguardiario 질문 자체가 지나치게 광범위합니다. – zsquare

A

답변

2

입니다 그리고이 데이터를 읽고 해석 할 파서 (Parser). 필자의 경우, 나는 열어 보았지만 다운로드/데이터에 친숙하지 않은 정부 정보를 얻어야했다. 이 프로젝트에서 저는 scrapy를 사용했습니다 [1].

주로 내 로봇이 크롤링 할/가져 오는 URL 인 'starter_urls'를 설정하고 '파서'기능을 사용하여이 데이터를 검색/파싱 한 후

구문 분석/검색을 위해서는 데이터의 90 %가 일부 html, lxml 추출기가 필요합니다.

지금 귀하의 질문에 집중 : 데이터의 경우

는

Scrapy를 크롤링
요청 [2]
URLLIB [3] 분석 데이터에 대한

Scrapy/LXML 또는 scrapy + 기타
LXML [4]
아름 다운 수프 [5]

그리고 기억하시기 바랍니다 '크롤링'과 폐기는 이메일도뿐만 아니라 웹을위한 것입니다.http://docs.python-requests.org/en/latest/

[3] - - http://docs.python.org/library/urllib.html

[4] - http://lxml.de/

당신은 여기에 [6]

[1] = http://scrapy.org/

[2]에 대한 또 다른 질문을 확인할 수 있습니다

[5] - http://www.crummy.com/software/BeautifulSoup/

[6] - Python read my outlook email mailbox and parse messages

2012-10-15 07:41:32

2

사실상의 파이썬에서 HTML 파서는 beautiful soup입니다. Python requests 라이브러리는 요즘 인기가 높습니다 (표준 라이브러리는 비슷한 기능을하지만 다소 성가신 API가 있지만).

크래프트 할 목적으로 제작 된 실제 크롤러입니다. lxml이 아름다운 수프 사이

2012-10-15 07:29:02

2

는 LXML 그것이 libxml2를 기반으로하고 XPath는/CSS를 지원하고 있기 때문에 을 노코 기리 더 많은 것과 동일합니다. 그물/HTTP의
등가는
은 주로 당신이 '스크레이퍼'/ 웹 서버에서 파일/데이터를 다운로드합니다 파이썬 lib 디렉토리/프로그램/기능을 크롤러를 분리해야 잘
urllib2가

2012-10-15 07:40:33 pguardiario

1

또한 HTML을 구문 분석하는 매우 쉬운 방법 인 Beautiful Soup을 사용합니다. 내가 웹 페이지를 크롤링 할 때 The ElementTree XML API도 사용합니다. 개인적으로, 나는 ElementTree 라이브러리 (XML을 파싱하기 쉽다)를 정말 좋아한다.

2012-10-15 07:42:06

관련 문제