2010-07-01 3 views
3

현재 urllib2을 사용하여 웹 사이트의 페이지를 가져 와서 구문 분석하고 있습니다. 그러나 그들 중 많은 수가 (1000 개 이상) 순차적으로 처리하는 것은 고통스럽게 느립니다.Python 2.6 : urllib2를 사용하여 병렬 구문 분석

페이지를 병렬로 검색하고 구문 분석 할 수있는 방법이 있었으면합니다. 그게 좋은 생각이라면 가능한 일인가? 나는 그것을 어떻게 할 수 있는가?

병렬로 처리 할 페이지 수에 대한 "합리적인"값은 무엇입니까 (너무 많은 연결을 사용하기 때문에 서버에 너무 많은 부담을주지 않거나 차단할 수 없습니까?).

감사합니다.

답변

3

언제든지 스레드를 사용할 수 있습니다 (즉, 별도의 스레드에서 각 다운로드를 실행). 큰 숫자의 경우 리소스가 너무 적어서 gevent을보고 특히 this example을 사용하는 것이 좋습니다. 필요한 경우에만 사용할 수 있습니다.

이 (gevent.org에서 "gevent는 libevent 이벤트 루프의 상단에 높은 수준의 동기 API를 제공하기 위해 greenlet 사용하는 코 루틴 기반의 파이썬 네트워킹 라이브러리입니다")

좋아 보인다
+0

, 내가 확인해 볼게 그것. 감사! –