scraper

    2

    4답변

    urllib 라이브러리를 사용하여 페이지를 가져옵니다. 일반적으로 최상위 도메인 이름이 &입니다. 해당 도메인 내의 모든 페이지에서 일부 정보를 추출하고 싶습니다. 따라서, 나는 xyz.com이있는 경우, 내가 xyz.com/about 등의 데이터를 가져 오기하려면 코드를 싶습니다 여기 내가 사용하고있는 작업은 다음과 같습니다 import urllib,re

    0

    1답변

    프록시를 사용하여 페이지를 가져 오는 데 이미 urllib2를 사용하고 있지만 너무 오래 걸립니다. 프록시를 사용하는 데 더 오래 걸리지 만, 파이어 폭스 또는 ie를 사용하여 프록시를 테스트 할 때 너무 오래 걸립니다. 감사합니다.

    -1

    1답변

    루비의 말미잘과 nokogiri 라이브러리를 사용하여 전자 상거래 사이트에서 제품을 긁을 수 있습니까? 나는 nokogiri를 사용하여 각 제품 페이지에서 필요한 데이터를 가져 오는 방법을 알고 있지만 말미잘/nokogiri를 사이트를 크롤링하고 모든 제품 페이지를 잡는 방법을 알아낼 수 없습니다. 가 올바른 방향으로 푸시가 많은

    0

    2답변

    저는 이것이 사소한 질문이라고 생각합니다. 그러나 누군가 제가 scraper에서 lxml을 사용하여 얻은 질의를 도울 수 있기를 바랍니다. https://scraperwiki.com/scrapers/thisisscraper/ 나는 튜토리얼 ~ 3 줄 단위를 쓰고있어 지금까지 다음 페이지의 링크를 추출하는 노력과 함께 가지고있다. cssselect를 사용하여

    1

    3답변

    이 루비 스크립트를 작성하여 제조업체 웹 사이트에서 제품 정보를 긁어 냈습니다. 배열에서 제품 객체의 스크래핑과 저장이 작동하지만 배열 데이터를 csv 파일로 내보내는 방법을 알 수 없습니다. 이 오류는 다음과 같이 throw됩니다. scraper.rb : 45 : 정의되지 않은 메소드 send_data for main : Object (NoMethodEr

    0

    1답변

    나는 실시간 위키 피디 편집을 스트림하는 node.js 프로젝트 (기초로 Wikistream을 사용하므로 완전히 내 코드가 아님)로 작업 중입니다. 코드는 각 편집 내용을 구성 요소로 나누고이를 객체로 저장합니다 (요지는 https://gist.github.com/2770152 참조). 부품 중 하나는 URL입니다. 각 편집을 구문 분석 할 때 사전 편집

    3

    3답변

    나는 단순한 html-dom을 사용하여 특정 사이트의 제목을 긁어 모으고 있습니다. <?php include('simple_html_dom.php'); $html = file_get_html('http://www.pottermore.com/'); foreach($html->find('title') as $element) echo $el

    3

    1답변

    나는 루비에 웹 스크레이퍼를 썼다. 그러나 내가 근근이 살아가고있는 웹 사이트가 디자인을 바꿨습니다. 내 스크레이퍼가 실패했습니다. 이런 종류의 고유 한 스크레이퍼 문제를 해결할 수있는 스마트하고 간단한 솔루션이 있습니까? (예 : .. 패턴 매칭의 어떤 종류를 사용하여, XPath의, 비교 DOM 머릿단 ... 등) 위의 예제 코드에서 EM.run {

    0

    1답변

    를 검색 할 수 없습니다,이 있습니다 <meta property="og:image" content="<?php echo $picURL; ?>"/> 어떤 같이 렌더링 실행되는 경우 <meta property="og:image" content="http://a3.sphotos.ak.fbcdn.net/hphotos-ak-ash3/556898_400257580

    1

    2답변

    다음을 달성하거나 브라우저를 스크립팅하거나 서버에 요청하거나 로그인하여 사이트를 탐색하려면 무엇을 사용할 수 있습니까? 링크를 찾아 해당 링크로 이동하십시오. 지금은 NodeJS에 들어 있기 때문에 node.io를보고있었습니다. 그것은 당신이 사이트를 아주 쉽게 긁을 수있게하지만 문제는 제가 로그인하려고 할 때 나는 아무것도 얻을 수 없다는 것입니다! no