2012-10-15 7 views
1

저는 지난 며칠 동안 파이썬을 배우기 시작했습니다. 파이썬에서 크롤러를 작성하는 것과 동일한 방법을 알고 싶습니다.루비에서 파이썬으로 이동 : 크롤러

그래서 루비에서 나는 사용 URL에서 JSON 데이터를 가져 오기위한

  • Net::HTTPNet::HTTP::Get.new(uri.request_uri).body을 HTML을 크롤링 및 CSS 태그를 통해 컨텐츠를 얻기를위한

    1. nokogiri

    다음의 등가물 무엇인가 파이썬으로?

  • +0

    치료 프로젝트를 살펴보십시오. – zsquare

    +0

    @zsquare - Scrapy는 흥미로운 프로젝트이지만 불행하게도 문제를 해결하지 못합니다. – pguardiario

    +1

    @pguardiario 질문 자체가 지나치게 광범위합니다. – zsquare

    답변

    2

    입니다 그리고이 데이터를 읽고 해석 할 파서 (Parser). 필자의 경우, 나는 열어 보았지만 다운로드/데이터에 친숙하지 않은 정부 정보를 얻어야했다. 이 프로젝트에서 저는 scrapy를 사용했습니다 [1].

    주로 내 로봇이 크롤링 할/가져 오는 URL 인 'starter_urls'를 설정하고 '파서'기능을 사용하여이 데이터를 검색/파싱 한 후

    구문 분석/검색을 위해서는 데이터의 90 %가 일부 html, lxml 추출기가 필요합니다.

    지금 귀하의 질문에 집중 : 데이터의 경우

    1. Scrapy를 크롤링
    2. 요청 [2]
    3. URLLIB [3] 분석 데이터에 대한

      ,
    1. Scrapy/LXML 또는 scrapy + 기타
    2. LXML [4]
    3. 아름 다운 수프 [5]

    그리고 기억하시기 바랍니다 '크롤링'과 폐기는 이메일도뿐만 아니라 웹을위한 것입니다.http://docs.python-requests.org/en/latest/

    [3] - - http://docs.python.org/library/urllib.html

    [4] - http://lxml.de/

    당신은 여기에 [6]

    [1] = http://scrapy.org/

    [2]에 대한 또 다른 질문을 확인할 수 있습니다

    [5] - http://www.crummy.com/software/BeautifulSoup/

    [6] - Python read my outlook email mailbox and parse messages

    2

    사실상의 파이썬에서 HTML 파서는 beautiful soup입니다. Python requests 라이브러리는 요즘 인기가 높습니다 (표준 라이브러리는 비슷한 기능을하지만 다소 성가신 API가 있지만).

    크래프트 할 목적으로 제작 된 실제 크롤러입니다. lxml이 아름다운 수프 사이

    2
    1. 는 LXML 그것이 libxml2를 기반으로하고 XPath는/CSS를 지원하고 있기 때문에 을 노코 기리 더 많은 것과 동일합니다. 그물/HTTP의
    2. 등가는

      은 주로 당신이 '스크레이퍼'/ 웹 서버에서 파일/데이터를 다운로드합니다 파이썬 lib 디렉토리/프로그램/기능을 크롤러를 분리해야 잘

      urllib2가
    1

    또한 HTML을 구문 분석하는 매우 쉬운 방법 인 Beautiful Soup을 사용합니다. 내가 웹 페이지를 크롤링 할 때 The ElementTree XML API도 사용합니다. 개인적으로, 나는 ElementTree 라이브러리 (XML을 파싱하기 쉽다)를 정말 좋아한다.