2009-09-24 13 views
0

그래서 종종 다른 계좌 번호를 확인합니다. 예를 들어, 내 제휴 계정 : 나는 현금 증가를 확인합니다.웹 사이트에서 데이터를 가져 오는 방법은 무엇입니까?

나는 모든 웹 사이트에 로그인 할 수있는 스크립트를 프로그래밍하고 나에게 돈 가치를 부여하여 한 페이지에 표시하려고합니다. 어떻게 프로그램 할 수 있습니까?

답변

3

curl을 살펴 봐야합니다. 일부 웹 페이지를 쉽게 검색 할 수있는 스크립트를 생성 할 수 있어야합니다.

또한 simplexmldom을 살펴보면 (X) HTML 파일에서 정보를 추출하는 데 도움이됩니다.

또한 Zend_Http은 말리기 좋은 대안이 될 수 있습니다.

건배

1

음, 일종의 막연한 질문 ... 나는 다음과 같이 건의 할 것입니다 :

  • POST를 통해
  • 잡아 로그인 자격 증명을 보내고 응답을 구문 분석을

  • 확인할 모든 관련 계정/사이트에 대해 수행하십시오.

특정 문제에 직면하는 경우

편집 : RageZ의 기술 접근 ​​방식에 동의합니다. 컬은

HTH 모든

K

0

먼저 ^^ ... 너무 나를 위해 '선택의 무기'가 될 확인한다면 당신은 API를 가지고 로그인 할 서비스를 제공합니다.
데이터를 가져와 다른 응용 프로그램에서 악용하려는 목적으로 만들어진 형식이기 때문에 훨씬 쉽습니다.

API가있는 경우 해당 설명서에서 데이터를 검색하고 사용하는 방법을 확인할 수 있습니다.

아무 것도없는 경우 HTML 페이지를 스크랩해야합니다.
Curl을 살펴봄으로써 시작할 수 있습니다 : http://php.net/curl
아이디어는 로고 게시물 요청을 보내고 주어진 데이터를 가져 와서 웹 사이트를 직접 시뮬레이션하는 것입니다.

페이지의 데이터를 검색 한 후 dom과 같은 도구를 사용하여 데이터를 구문 분석 할 수 있습니다. http://php.net/dom

0

TestPlan을 사용하면 웹 자동화 시스템으로 설계되어 이러한 작업을 매우 간단하게 만듭니다.

0

만약 내가 당신이라면 나는 PHP 스크립트에서 사용할 컬보다 더 사용자 친화적 인 사람인 것 같습니다. Snoopy입니다. 다음은 sample code입니다.

<?php 
    /* 
    You need the snoopy.class.php from 
    http://snoopy.sourceforge.net/ 
    */ 

    include("snoopy.class.php"); 

    $snoopy = new Snoopy; 

    // need an proxy?: 
    //$snoopy->proxy_host = "my.proxy.host"; 
    //$snoopy->proxy_port = "8080"; 

    // set browser and referer: 
    $snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"; 
    $snoopy->referer = "http://www.jonasjohn.de/"; 

    // set some cookies: 
    $snoopy->cookies["SessionID"] = '238472834723489'; 
    $snoopy->cookies["favoriteColor"] = "blue"; 

    // set an raw-header: 
    $snoopy->rawheaders["Pragma"] = "no-cache"; 

    // set some internal variables: 
    $snoopy->maxredirs = 2; 
    $snoopy->offsiteok = false; 
    $snoopy->expandlinks = false; 

    // set username and password (optional) 
    //$snoopy->user = "joe"; 
    //$snoopy->pass = "bloe"; 

    // fetch the text of the website www.google.com: 
    if($snoopy->fetchtext("http://www.google.com")){ 
     // other methods: fetch, fetchform, fetchlinks, submittext and submitlinks 

     // response code: 
     print "response code: ".$snoopy->response_code."<br/>\n"; 

     // print the headers: 

     print "<b>Headers:</b><br/>"; 
     while(list($key,$val) = each($snoopy->headers)){ 
      print $key.": ".$val."<br/>\n"; 
     } 

     print "<br/>\n"; 

     // print the texts of the website: 
     print "<pre>".htmlspecialchars($snoopy->results)."</pre>\n"; 

    } 
    else { 
     print "Snoopy: error while fetching document: ".$snoopy->error."\n"; 
    } 
?> 
0

VietSpider 웹 데이터 추출기를 사용하십시오.

VietSpider Web Data Extractor : 소프트웨어는 웹 사이트 (Data Scraper)의 데이터를 XML 표준 (Text, CDATA) 형식으로 크롤링 한 다음 관계형 데이터베이스에 저장합니다. 제품은 Oracle, MySQL, SQL과 같은 다양한 RDBM을 지원합니다 서버, H2, HSQL, Apache Derby, Postgres ... VietSpider 크롤러는 세션 (로그인, 폼 입력으로 쿼리), 다중 다운로드, 자바 스크립트 처리, 프록시 (웹 사이트에서 프록시를 자동으로 스캔하여 다중 프록시)를 지원합니다 ...

다운로드 : http://binhgiang.sourceforge.net

관련 문제