2011-02-16 2 views
0

나는 cURL에서 병목 현상이 발생하지 않는 PHP/cURL을 사용하여 스크레이퍼를 작성했습니다. AFAIK는 cURL의 속도를 향상시킬 방법이 없지만 더 빠른 속도를 가진 다른 언어/라이브러리를 읽었습니다. 누구나이 영역에서 경험을 쌓았습니까? 개선 할 부분은 무엇입니까? 아마도 25 % 미만의 문제에 대해서는 가치가 없을 것입니다.웹 스크래퍼의 속도를 향상시킬 수있는 대체 언어/라이브러리

다른 방법으로 병렬 cron 작업을 수행 할 수 있습니까?

+1

리모트 요청 자체와는 달리 병목 현상이 컬 라이브러리라고 확신하십니까? –

+0

코드가 좋을 것입니다. –

답변

1

PHP의 Curl은 매우 빠릅니다. 병렬로 요청을 실행하려면 curl_multi을 사용해야합니다.

스크레이퍼를 fiddler 통해 실행하면 99 %의 시간이 원격 요청을 기다리고 있습니다.

얼마나 많은 병렬 요청이 최상의 성능을 제공하는지 보려면 실험을해야합니다. 그것은 사이트마다 다를 것입니다. 때로는 쓰레드가 제대로 작성되지 않은 경우 사이트가 여러 스레드 실행 속도가 느려지는 경우가 있습니다 (db slow 서버 등의 인덱스가없는 경우).

나는 이것을 많이 작성한 web scraping framework을 작성했습니다. 보세요, 코드를 훔쳐 가세요. 새로운 기술을 배우십시오.

관련 문제