웹 응용 프로그램에서 교육용 검색 엔진을 만들고 웹 페이지에서 PHP를 사용하여 약 10 개의 웹 사이트를 크롤링하고 나중에 검색 할 수 있도록 데이터베이스에 데이터를 저장하기로 결정했습니다. 이 데이터를 검색하여 데이터베이스에 저장하려면 어떻게합니까?웹 페이지에서 크롤링 된 데이터를 저장하는 방법
1
A
답변
0
file_get_contents()
기능으로 잡을 수 있습니다. 따라서 당신은 가지고있을 것입니다
이 함수는 페이지를 문자열로 반환합니다.
희망이 도움이됩니다. 나는 마침내 도착하고 URL 목록을 만들 수있는 크롤러를 구축 건배
0
그들을
A. 목록을 확인받을
- 이 추가 크롤링 URL의 목록을 정의 크롤링 할 URL 목록 (작업 목록)
- 최대 깊이를 정의하십시오.
- 첫 번째 페이지를 분석하고 모든 href를 얻고 li을 얻으십시오 nk.
- 각 링크의 경우 : 동일한 도메인 또는 상대 회원 인 경우 작업 목록에 추가하십시오.
- 작업 목록에서 현재 URL을 제거하십시오.
- 비어 있지 않은 경우 다음 URL 작업 목록에서 재시작하십시오. http://simplehtmldom.sourceforge.net/
B. 만든 배열에 내용을
루프를 취득하고, 콘텐츠를이 들어
당신은 정말 쉽게 HTML을 해석하게이 클래스를 사용할 수 있습니다. file_get_contents가이 작업을 수행합니다 : http://www.php.net/manual/fr/function.file-get-contents.php
이것은 기본적으로 시작 단계에 유효합니다. 단계 A에서 이미 구문 분석 된 URL 목록을 유지하여 하나만 확인하십시오. 쿼리 문자열은 다른 쿼리 문자열로 여러 페이지를 스캔하지 않도록주의해야합니다.
관련 문제
- 1. 프로그래밍 방식으로 웹 페이지에서 데이터를 검색하는 방법?
- 2. 웹 데이터를 저장하는 다양한 방법 로컬로
- 3. 데이터를 메모리에 저장하는 방법
- 4. 관련 데이터를 저장하는 방법
- 5. 여기서 \ 분산 된 구성 데이터를 저장하는 방법
- 6. 동적 페이지가있는 웹 사이트 크롤링
- 7. 보기에 데이터를 저장하는 방법
- 8. 효율적인 웹 크롤링
- 9. .NET에서 데이터를 저장하는 방법
- 10. 데이터를 coreData에 저장하는 방법
- 11. Json 데이터를 저장하는 방법
- 12. 실시간 데이터를 저장하는 방법
- 13. C#에서 웹 페이지 크롤링
- 14. 웹 크롤링 기술 정보
- 15. 인증이 필요한 웹 크롤링
- 16. 웹 크롤링 도움이 필요합니다.
- 17. 스크린 긁기 | 웹 크롤링
- 18. 웹 사이트 콘텐츠 크롤링
- 19. 웹 크롤링 및 제한점
- 20. Niocchi Crawler - 크롤링 과정에서 크롤링 할 URL을 추가하는 방법 (전체 웹 사이트 크롤링)
- 21. 소스를 크롤링하는 방법 내 웹 크롤링
- 22. seleniumRC로 웹 페이지를 저장하는 방법
- 23. 웹 크롤링 및 링크 평가
- 24. PHP를 사용하여 웹 사이트를 크롤링
- 25. 피드 크롤링 방법
- 26. JPA로 기상 데이터를 저장하는 방법
- 27. 북마크 용 데이터를 저장하는 방법?
- 28. 데이터를 저장하는 가장 좋은 방법
- 29. log4net : DB에 데이터를 저장하는 방법
- 30. 큰 데이터를 파일에 저장하는 방법