저는 지난 며칠 동안 파이썬을 배우기 시작했습니다. 파이썬에서 크롤러를 작성하는 것과 동일한 방법을 알고 싶습니다.루비에서 파이썬으로 이동 : 크롤러
그래서 루비에서 나는 사용 URL에서 JSON 데이터를 가져 오기위한
Net::HTTP
및 Net::HTTP::Get.new(uri.request_uri).body
을 HTML을 크롤링 및 CSS 태그를 통해 컨텐츠를 얻기를위한
nokogiri
는
다음의 등가물 무엇인가 파이썬으로?
저는 지난 며칠 동안 파이썬을 배우기 시작했습니다. 파이썬에서 크롤러를 작성하는 것과 동일한 방법을 알고 싶습니다.루비에서 파이썬으로 이동 : 크롤러
그래서 루비에서 나는 사용 URL에서 JSON 데이터를 가져 오기위한
Net::HTTP
및 Net::HTTP::Get.new(uri.request_uri).body
을 HTML을 크롤링 및 CSS 태그를 통해 컨텐츠를 얻기를위한
nokogiri
는다음의 등가물 무엇인가 파이썬으로?
입니다 그리고이 데이터를 읽고 해석 할 파서 (Parser). 필자의 경우, 나는 열어 보았지만 다운로드/데이터에 친숙하지 않은 정부 정보를 얻어야했다. 이 프로젝트에서 저는 scrapy를 사용했습니다 [1].
주로 내 로봇이 크롤링 할/가져 오는 URL 인 'starter_urls'를 설정하고 '파서'기능을 사용하여이 데이터를 검색/파싱 한 후
구문 분석/검색을 위해서는 데이터의 90 %가 일부 html, lxml 추출기가 필요합니다.
지금 귀하의 질문에 집중 : 데이터의 경우는
그리고 기억하시기 바랍니다 '크롤링'과 폐기는 이메일도뿐만 아니라 웹을위한 것입니다.http://docs.python-requests.org/en/latest/
[3] - - http://docs.python.org/library/urllib.html
[4] - http://lxml.de/
당신은 여기에 [6][1] = http://scrapy.org/
[2]에 대한 또 다른 질문을 확인할 수 있습니다
[5] - http://www.crummy.com/software/BeautifulSoup/
[6] - Python read my outlook email mailbox and parse messages
사실상의 파이썬에서 HTML 파서는 beautiful soup입니다. Python requests 라이브러리는 요즘 인기가 높습니다 (표준 라이브러리는 비슷한 기능을하지만 다소 성가신 API가 있지만).
크래프트 할 목적으로 제작 된 실제 크롤러입니다. lxml이 아름다운 수프 사이
은 주로 당신이 '스크레이퍼'/ 웹 서버에서 파일/데이터를 다운로드합니다 파이썬 lib 디렉토리/프로그램/기능을 크롤러를 분리해야 잘
urllib2가또한 HTML을 구문 분석하는 매우 쉬운 방법 인 Beautiful Soup을 사용합니다. 내가 웹 페이지를 크롤링 할 때 The ElementTree XML API도 사용합니다. 개인적으로, 나는 ElementTree 라이브러리 (XML을 파싱하기 쉽다)를 정말 좋아한다.
치료 프로젝트를 살펴보십시오. – zsquare
@zsquare - Scrapy는 흥미로운 프로젝트이지만 불행하게도 문제를 해결하지 못합니다. – pguardiario
@pguardiario 질문 자체가 지나치게 광범위합니다. – zsquare