내가 웹 사이트 PHP 페이지 (getdata.php
)를 작성하여 특정 웹 사이트 페이지의 내용을 cUrl로 가져 오는 경우, 유용한 정보를 txt 파일이나 데이터베이스에 저장한다고 가정 해 봅시다. 약 백만 페이지가 있기 때문에 getdata.php
의웹 스크래핑 페이지를 지속적으로 작동시키는 방법
의사 코드,
min = get latest search id from database
max = 1.000.000 (yes one million different pages)
while (min < max) {
url = "http://www.website.com/page.php?id=".$min
content = getContentFromURL(url)
saveUsefulInfoToDb(content)
min++
set latest search id as min in database
}
그것은 였는지를이, 괜찮아요,
-
브라우저에
- 열기
getdata.php
- 을 기다립니다 여전히 대기 긁힐 것이다.
- 대기
- 그리고 마지막으로 시간 초과를 요청하십시오.
- 그래서 문제가 내가이 합리적인 였는지를 만들 수있는 방법을 몰라
실패. 브라우저에서 페이지를 열고 URL 스크랩을 끝내기를 기다리는 중입니다. 정말 나쁜 습관이라고 생각합니다.
cron과 같은 백그라운드에서 getdata.php를 실행 가능하게 만들 수 있습니까?
가장 좋은 방법은 무엇입니까?
감사합니다. 코드
set_time_limit(0);
ignore_user_abort(true);
의 상단에
왜 크론 작업을 할 수 없습니까? –