web-scraping

    0

    1답변

    나는이 질문의 버전을 묻는 질문을하고 며칠 전 여러 가지 전략을 시도했다. 내가 원하는 것은 Python을 사용하여 큰 스크립트 (주로 뉴스 사이트)의 텍스트 분석을 수행하는 별도의 스크립트에서 사용할 수있는 Google 검색의 모든 URL을 다듬는 것입니다. 이것은 비교적 간단하지만, 시도한 시도 중 어느 것도 제대로 작동하지 않았습니다. 내가 가진으로

    1

    1답변

    다음 코드를 사용하여 초기 문제를 해결했습니다. 이제 반환 된 데이터를 처음 5 개 행으로 제한하는 방법을 알아야합니다. foreach 루프를 어떻게 제한합니까? site에서 데이터를 스크래핑 중입니다. DOM을 통과하여 3 개월 또는 "지난 1 개월 (11/20/2017-12/19/2017)"테이블을 가져올 수 있습니다. 2 ". 그러나 나는 정확한 결과

    0

    1답변

    저는이 문제에 대해 정말로 혼란스러워하고 있습니다. 다음은 내가 사용하는 것입니다. 요청 2.18.4 파이썬 2.7.14 내가 스크레이퍼를 구축하고 URL로 연결하는 requests.get()를 사용하는 것을 시도하고있다. 이것은 실제로 다른 링크로 이동하는 링크입니다. File "/Users/cecilialee/anaconda/envs/py2/lib/py

    1

    2답변

    나는 파이썬 패키지 아름다운 스프와 함께 웹 사이트를 긁어 내려고하는 동안 문제가 발생했습니다. 어쨌든 나는 그 부분에서 내가 관심있는 부분을 exept에서 얻는다. 나는이 사이트 https://www.bitfinex.com/에서 실시간 데이터를 긁어 내려고 애 쓰고있다. 나는 진짜로 실시간 데이터에 대해 모든 부분을 얻었고 데이터와 동일한 컨테이너 내부의

    -1

    1답변

    예외가 발생하고 응답 상태 코드가 429 인 경우 Scrapy 요청을 다시 시도하고 싶습니다. 문제는 process_exception에서 응답 상태를 얻는 방법을 모른다는 것입니다. process_exception 안에 응답 객체에 액세스 할 수있는 방법이 없기 때문에 어떻게해야합니까? 당신은 당신이 response.status = 429 이있을 때 요청을

    0

    1답변

    나는 아래의 코드를 작성하여 cargurus 웹 사이트를 긁었다. 검색은 페이지 당 15 개의 항목을 보여줍니다. 페이지 1에서 n으로 반복적으로 이동하여 각 페이지를 긁어 내고 싶습니다. 아래 코드는 그렇게하기로되어 있지만, 스크립트의 끝에서 첫 번째 페이지 numPages 시간을 복제하는 데이터 프레임 df가 있습니다. 나는 time.sleep (1)

    -2

    1답변

    이것은 내 코드이며 URL이 열리지 않으면 할당 된 '잘못된 것'을 항상 priting합니다. 내 코드가 '잘못된 것'이상을 실행하고 인쇄하는 데 영원히 걸리므로 어떻게하면 메모리 사용 및 시간 측면에서 내 코드를보다 효과적으로 만들 수 있을까요? 나는 사람이 당신은 while (iteration<1): 결코 0으로 초기화 한 후 반복에 어떤 값을 할당 쓰

    0

    1답변

    비디오 게임을 위해 leaderboard의 데이터를 비동기 적으로 긁어 내려합니다. 주간 및 일일 도전 과제가 있습니다. 지금까지 코드를 this async client with semaphores에 기반을 두었습니다. 차이점은 함수에서 루프가 사용되는 끝을 포함하려고하는 것입니다. 여기에 내 코드의 관련 부분입니다 : from urllib.parse im

    1

    1답변

    R 프로그래밍의 R 베스트 패키지를 사용하여 아래 링크에서 웹 페이지를 긁어 내려고했습니다. 내가 스크랩 한 링크는 http://dk.farnell.com/c/office-computer-networking-products/prl/results 내 코드입니다 : library("xml2") library("rvest") url<-read_html("

    0

    1답변

    미안하지만, 아는 사람이라면 가르쳐 주셔서 감사합니다. 마케팅 목적으로 긁어 모으기 위해 긁고있는 도구를 만들고 있습니다. . 웹 사이트에서 연락처 정보를 내가 파이썬 3 를이 내 코드되어 사용하고 있습니다 : 그것은 나를 일이 같은 얻는 이유 import requests, bs4, os, codecs, csv import pandas as pd imp