웹 사이트의 각 페이지를 탐지하고 xml 파일에 항목을 생성하는 사이트 크롤러를 작성하는 방법을 알고 싶습니다. 나는 이것을 수행하는 웹 사이트를 많이 보았으므로 처음부터 어떻게하는지 궁금하다. 또는 그것을 가르치기위한 스크립트 나 튜토리얼이있다.사이트 맵 생성기, 처음부터 빌드
0
A
답변
2
정규식을 사용하지 마십시오. html을 파싱하는 올바른 방법은 DOMDocument 객체를 사용하는 것입니다.
- DOMDocument 개체에 첫 번째 페이지를로드합니다.
- XPath 문을 사용하여 해당 페이지에서 모든 앵커 태그 href를 수집합니다.
- 로드 할 페이지를 더 찾으려면이 값을 사용하고, 1 단계에서 다시 시작하십시오.
0
여기 알고리즘
단계 1입니다> 사이트의 주소를 가져 오기 주소가 올바른 형식으로되어 있는지 확인하며 (www.xyz을 좋아하지 페이지 (www.xyz.com/page.html)로 끝납니다. co.kr /).
2 단계 - 정규 표현식을 사용하여 파일의 내용을 가져 와서 페이지 목록을 가져 오십시오.
3 단계 - 나중에 사용하기 위해 DB에서 수집 한 다음 해당 파일에도 2 단계를 수행하십시오.
관련 문제
- 1. 레일 사이트 맵 생성기, 정의되지 않은 메소드 post_path?
- 2. WPF 레이아웃/맵/미로 생성기
- 3. Entity Framework : 관리 사이트 생성기
- 4. 사이트 맵 노드 URL이 사이트 맵 파일에서 여러 쿼리 문자열
- 5. 사이트 맵 생성
- 6. 사이트 맵 생성 전략
- 7. 사이트 맵 자체를 참조해야합니까?
- 8. ASP.NET 사이트 맵
- 9. 디자인 사이트 맵 페이지
- 10. 사이트 맵 사용
- 11. 즉석에서 사이트 맵 생성
- 12. 사이트 맵 생성 문제
- 13. MVC 사이트 맵 제공자
- 14. WebConfigurationManager 오류 사이트 맵
- 15. 유효 사이트 맵 URL입니까?
- 16. 장고는 사이트 맵 효율
- 17. 사이트 맵 컨트롤
- 18. 현재 사이트 맵 다이어그램
- 19. 차단 된 링크가 사이트 맵
- 20. CakePHP의 자동화 된 사이트 맵
- 21. SQL 사이트 맵 공급자 리뷰
- 22. PHP 사이트/의존성이있는 스크립트 맵
- 23. 사이트 맵 rootNode를, rootNode를 = "홈"
- 24. asp.net 사이트 맵 변경 런타임
- 25. 업데이트 asp.net XML 사이트 맵
- 26. 프로그래밍 방식으로 유지하는 사이트 맵
- 27. 비주얼 웹 개발자의 사이트 맵
- 28. SharePoint 가상 디렉터리 사이트 맵
- 29. 사이트 맵 경로는 특정 값을
- 30. 데이터베이스에서 사이트 맵 가져 오기