2014-02-20 2 views
0

아래 링크에서 각 서브 페이지로 이동하여 HTML 표를 단일 .html 파일로 구문 분석하려고합니다. 또한, 예를 들어 Accountancy 서브 페이지를 클릭하면 해당 서브 페이지에는 여러 페이지의 클래스 목록 (페이지 1, 2, 3 등)이 있습니다. 서브 페이지의 모든 페이지도 구문 분석하고 싶습니다. http://my.gwu.edu/mod/pws/subjects.cfm?campId=1&termId=201401웹 페이지를 파싱하고 PHP를 통해 서브 페이지

내가 웹 크롤러를 사용해야합니까 : 여기

상위 페이지입니까? 하나의 .html 파일에서 모든 서브 페이지를 컴파일하려면이 작업을 수행하는 가장 좋은 방법은 무엇입니까? 나열된 모든 서브 페이지의 모든 HTML 테이블 데이터를 효율적으로 긁어 내 코드를 작성하려면 어떻게해야합니까? 건배!

답변

1

ultimate-web-scraper을 사용하면 페이지를 가져올 수 있습니다. 그런 다음 아래 링크와 같은 링크를 찾아 가서 the docs을 확인하십시오. 이 같은 경우에, 당신은 그렇지 않으면 당신은 infinit 루프에 끝날 수도 방문한 링크를 추적해야합니다 있지만

$html->load($result["body"]); 
$rows = $html->find("a[href]"); 
foreach ($rows as $row) 
{ 
    //get the page at $row->href, and so on recursevly 
} 

.

속도가 느려질 것이므로 몇백 페이지가 있다면이 좋은 해결책이 아닐 수도 있습니다.

관련 문제