2011-05-10 2 views
0

웹 사이트의 각 페이지를 탐지하고 xml 파일에 항목을 생성하는 사이트 크롤러를 작성하는 방법을 알고 싶습니다. 나는 이것을 수행하는 웹 사이트를 많이 보았으므로 처음부터 어떻게하는지 궁금하다. 또는 그것을 가르치기위한 스크립트 나 튜토리얼이있다.사이트 맵 생성기, 처음부터 빌드

답변

2

정규식을 사용하지 마십시오. html을 파싱하는 올바른 방법은 DOMDocument 객체를 사용하는 것입니다.

  1. DOMDocument 개체에 첫 번째 페이지를로드합니다.
  2. XPath 문을 사용하여 해당 페이지에서 모든 앵커 태그 href를 수집합니다.
  3. 로드 할 페이지를 더 찾으려면이 값을 사용하고, 1 단계에서 다시 시작하십시오.

http://www.php.net/manual/en/class.domdocument.php

0

여기 알고리즘
단계 1입니다> 사이트의 주소를 가져 오기 주소가 올바른 형식으로되어 있는지 확인하며 (www.xyz을 좋아하지 페이지 (www.xyz.com/page.html)로 끝납니다. co.kr /).
2 단계 - 정규 표현식을 사용하여 파일의 내용을 가져 와서 페이지 목록을 가져 오십시오.
3 단계 - 나중에 사용하기 위해 DB에서 수집 한 다음 해당 파일에도 2 단계를 수행하십시오.