scraper

    10

    7답변

    나는 하나의 사이트 (파이썬으로 작성)를 긁는 긁는 도구가 있습니다. 사이트를 긁어 모으는 동안 CSV로 쓰려는 내용이 인쇄됩니다. Scraper는 Python으로 작성되었으며 이제는 PHP 코드를 통해 실행하려고합니다. 내 질문은 어떻게 파이썬 코드로 인쇄하고있는 각 줄을 인쇄 할 수 있습니까? 나는 간부 기능을 사용했지만 내 사용 아무도없는 모든 프로그

    0

    1답변

    웹 페이지에서 모든 이미지를 다운로드하고 이미지 이름 앞에 웹 페이지의 URL을 붙이십시오 (모든 기호는 밑줄로 대체). www_amazon_com_gp_product_B0029KH944_41RaFZ6S-0L._SL500_AA300_.jpg 내가 WinHTTrack과 wget을 설치 한 : 나는 http://www.amazon.com/gp/product/B

    5

    3답변

    나는 XPath에 익숙하지 않으며 나에게 약간 까다로 보인다. 때로는 그것이 작동해야한다고 생각하는 방식으로 작동하지 않는 경우가 있습니다. XPath와 Nokogiri를 사용하여 웹 사이트에서 데이터를 긁을 때 웹 사이트가 복잡한 구조를 가지고 있으면 어려워집니다. 필자는 FirePath를 사용하여 요소의 XPath를 가져 왔지만 때로는 작동하지 않는 것

    0

    1답변

    , 그것은이 방법을 사용하여 URL을로드하면 HTML을 저장하는 방법 : $html = scraperWiki::scrape("foo.html"); 그래서 때마다 내가 스크레이퍼에 새로운 코드를 추가하고 시도하려는 그것은 html을 다시로드하는데, 이는 상당한 시간이 걸린다. $ html을 저장하면 어쨌든 처음으로로드됩니다.

    0

    1답변

    나는 'want'와 'own'버튼을 개발하려고합니다. Facebook debug tool을 사용하는 경우 최종 URL이 홈 페이지이며 이것이 원하지 않는 페이지가 리디렉션 되었기 때문에 발생했다고 알립니다. 가져온 URL을 긁어 내고 싶습니다. 항목 페이지 인 최종 URL 하지의 결과로 는 스크랩 한 정보가 부정확하고 디버깅 도구는 내가 올바른 정보가 항목

    25

    3답변

    많은 스크래핑을 작성했지만 무한 스크롤러를 처리하는 방법을 잘 모르겠습니다. 요즘 대부분의 웹 사이트 등 페이스 북, Pinterest 무한한 스크롤러가 있습니다.

    0

    1답변

    나는 일년에 수십만 건의 견해를 가진 뉴스 웹 사이트를 운영하고 있습니다. 새로운 콘텐츠가 게시 될 때마다 (매주 일요일 밤) 저자는 Facebook에 링크를 게시하여 새로운 콘텐츠에 게시하려고합니다. 그러나 페이스 북은 내가 이해하는 한 24 시간마다 웹 사이트를 긁어 낸다. 그래서 링크가 페이스 북에 붙여지면 기본 텍스트가 나온다. (즉, 페이지에 삽입

    -2

    3답변

    때때로 다음 페이지의 패턴이 될 경우에, 더 많은 페이지 내 코드는 파일의 각 URL에서 단 하나의 페이지가 열립니다 있다 from twill.commands import * from bs4 import BeautifulSoup from urllib import urlopen import urllib2 with open('urls.txt') as

    0

    1답변

    저는 다양한 웹 사이트에서 추가되거나 제거 된 html 태그의 변경 비율을 계산하기위한 통계식 공식을 찾으려고했습니다. 예를 들어 필자가 작성한 스크래퍼를 사용하면 초기 태그 수를 얻은 다음 그 값을 캐시합니다. 나중에 다음 라운드에서 과거 태그 수와 얻은 현재 태그 수를 비교하고 변경 비율로이 둘의 차이를 기준으로 백분율을 계산합니다. 기타 요인 등 웹

    0

    4답변

    웹 페이지에서 데이터를 스크랩하려고합니다. 웹 페이지는 모든 페이지가 될 수 있습니다. 예를 들어, curl을 사용하여 http://www.google.com/을 긁어 모으고 있습니다. 그것은 많은 경고를 주며 아무것도하지 않습니다. 경고 : 경고 라인 (30)에 SimpleXMLElement는 :: __) (구성 : C에서 : \ WAMP \ www가 \