2011-05-07 7 views
1

웹 응용 프로그램에서 교육용 검색 엔진을 만들고 웹 페이지에서 PHP를 사용하여 약 10 개의 웹 사이트를 크롤링하고 나중에 검색 할 수 있도록 데이터베이스에 데이터를 저장하기로 결정했습니다. 이 데이터를 검색하여 데이터베이스에 저장하려면 어떻게합니까?웹 페이지에서 크롤링 된 데이터를 저장하는 방법

답변

0

file_get_contents() 기능으로 잡을 수 있습니다. 따라서 당신은 가지고있을 것입니다

이 함수는 페이지를 문자열로 반환합니다.

희망이 도움이됩니다. 나는 마침내 도착하고 URL 목록을 만들 수있는 크롤러를 구축 건배

0

그들을

A. 목록을 확인받을

  1. 이 추가 크롤링 URL의 목록을 정의 크롤링 할 URL 목록 (작업 목록)
  2. 최대 깊이를 정의하십시오.
  3. 첫 번째 페이지를 분석하고 모든 href를 얻고 li을 얻으십시오 nk.
  4. 각 링크의 경우 : 동일한 도메인 또는 상대 회원 인 경우 작업 목록에 추가하십시오.
  5. 작업 목록에서 현재 URL을 제거하십시오.
  6. 비어 있지 않은 경우 다음 URL 작업 목록에서 재시작하십시오. http://simplehtmldom.sourceforge.net/

    B. 만든 배열에 내용을

    루프를 취득하고, 콘텐츠를이 들어

당신은 정말 쉽게 HTML을 해석하게이 클래스를 사용할 수 있습니다. file_get_contents가이 작업을 수행합니다 : http://www.php.net/manual/fr/function.file-get-contents.php

이것은 기본적으로 시작 단계에 유효합니다. 단계 A에서 이미 구문 분석 된 URL 목록을 유지하여 하나만 확인하십시오. 쿼리 문자열은 다른 쿼리 문자열로 여러 페이지를 스캔하지 않도록주의해야합니다.