scraper

0열

2답변

웹 페이지에서 정보를 긁어 내기 위해 Xidel을 사용하고 있으며 페이지의 순서와 다른 순서로 정보를 내보내려고합니다. 예 :이 코드는 제목, 다음 자막으로 내 보냅니다 <tr> <td></td> <td></td> <td></td> <td><a><font><b>{ location:=. }</b></font>{ title:=. }</a></td> <

1열

1답변

BeautifulSoup의 ResultSet리스트 객체 조작하기

2 개의 데이터를 추출하려고합니다 : 1) 옵션 요소의 "value"속성 값 (예 : "01000.html"). 2) <option></option> 태그 (즉, "Alabama") 내에있는 문자열. 나는 미국 인구 QFD 페이지의 드롭 다운 메뉴 (이 옵션 자체가 요소)에서 국가의 목록을 추출하는 url = 'http://quickfacts.census.

0열

1답변

영원히 무언가를 기다리십시오. CasperJS/PhantomJS

영원히 무언가를 기다릴 수있는 방법이 있습니까? 예. 내 사이트에서 똑같은 이유로 fb를 예로 사용합니다. 내 페이스 북 타임 라인에 새 게시물이있을 때마다 '게시물을로드하려면 여기를 클릭하십시오.'패널이 표시됩니다. 기본적으로 패널에 표시된 후 일부 동작이 트리거됩니다 (클릭하십시오). waitUntilVisible에 대해 알고 있지만 한 번만 실행되며

0열

1답변

PHP를 통해 다른 사이트의 iframe 동영상 모집

다른 사이트의 동영상 (예 : 실시간 동영상 사이트)을 내 사이트로 스크래핑하고 싶습니다. 다른 웹 사이트의 비디오를 어떻게 긁을 수 있습니까? 프로세스를 이미지 스크래핑과 동일하게 처리합니까? $html = file_get_contents('http://website.com/'); $dom = new domDocument; $dom->loadHTML(

2열

2답변

코인 통화 시장을위한 하이 차트 구현하기

코인 통화 시장 어플리케이션을 가지고 있는데 그래프를 통합하고 싶습니다. 그러나 어디서 데이터를 가져와야하는지 모릅니다. 지난 7,14,30 일 동안 동전의 가치를 그래픽으로 표시하기 위해 하이 차트에 통합 할 수있는 API가 있습니까? http://coinmarketcap.com/에서 모든 데이터를 스크랩했습니다. 캔버스이기 때문에 그래프를 스크랩 할 수

0열

1답변

cURL 이미지 스크레이퍼가 리디렉션됩니까?

여기 나는 cURL을 사용하여 웹 페이지에서 이미지를 가져 오는 기능이 있습니다. 대부분의 웹 사이트에서 작동하지만 일부 스크립트를 리디렉션하는 방법이 있습니다. 아래의 코드에서 예제로 사용 된 웹 사이트는 스크립트를 웹 페이지의 특정 페이지로 리디렉션합니다. 리디렉션을 사용하지 않거나 CURLOPT_MAXREDIRS로 제한하면 콘텐츠가 반환되지 않습니다

3열

1답변

Beautiful Soup nested div (추가 기능 추가)

회사 이름, 주소 및 우편 번호를 [www.quicktransportsolutions.com][1]에서 추출하려고합니다. 사이트를 긁어 내고 필요한 정보를 반환하기 위해 다음 코드를 작성했습니다. import requests from bs4 import BeautifulSoup def trade_spider(max_pages): page =

1열

1답변

rss 피드를 긁어내는 동안 치료를 통해 긁적 할 수 없음

상위 항목 태그 내의 다른 태그와 함께 모든 제목 태그를 긁어 내고 싶습니다. 그러나 다쳤다. 시도 껍질과 잘 작동하는 것 같습니다. 다음은 내 모든 코드 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtr

1열

1답변

R 스크랩 아톰 피드를 데이터 프레임에 넣기

나는 아톰 피드와 각 기사 링크를 가져 오는 데 문제가있는 R 스크레이퍼를 만들고 있습니다. 여기에 내 코드가있다 : url <- "http://www.stwnewspress.com/search/?mode=article&q=&nsa=eedition&t=article&l=1000&s=&sd=desc&f=atom&d=&d1=&d2=" pageSource <-

2열

1답변

PhantomJS와 Google 크롬/Firefox의 HTML 출력이 다릅니다

저는 오랫동안 이것을 디버깅 해왔고 완전히 당혹 스럽습니다. 작업 프로젝트를 위해 내 컴퓨터에 광고를 저장해야합니다. 내가 구글 크롬과 파이어 폭스에서이 링크를 방문 할 때, 내가 링크가 작동 중지 된 경우, 단순히 CNN.com로 이동 (광고를 볼 http://ads.cnn.com/html.ng/site=cnn&cnn_pagetype=main&cnn_po