2013-10-04 3 views
0

나는 웹 크롤링을 요청을하고, 가능하면 완전한 응답을 가지고 신속하게해야합니다.파이썬 크롤링 - 요청 빠른

저는 자바에서 왔습니다. 나는 두 가지 "프레임 워크"를 사용했으며 내 의도를 완전히 만족시키지 못했습니다.

Jsoup요청/응답을 빠른 있었지만 페이지가 많은 정보를했을 때 불완전한 데이터를 착용했다. 아파치 HttpClient 정확히이 신뢰할 수있는 데이터의 반대했지만 매우 느린.

일부 파이썬 모듈을 살펴본 결과 치료을 테스트하고 있습니다. 내 검색에서, 나는 그것이 빠른하고 지속적으로을 데이터를 제공, 또는인지 결론을 내릴 수 없습니다 거기에 몇 가지 더 다른 더 자세한 정보 또는 어렵다.

둘째, 파이썬은이 목적을 위해 좋은 언어은?

미리 감사드립니다.

답변

5

+1 투표에 대한 투표. 지난 몇 주 동안 나는 거대한 자동차 포럼의 크롤 러를 쓰고 있었으며 Scrapy는 절대적으로 믿을 수없고 빠르고 빠르며 신뢰할 만하다.

+0

고마워요 @ 토미, 당신의 의견을 도와줍니다. – raul

0

"요청을 수행하고 응답을 완료하고 신속하게 가져 오는"것을 찾는 것이 바람직하지 않습니다.

A.는 모든 HTTP 라이브러리는 당신에게 서버가 응답 전체 헤더/몸을 줄 것이다.

B. 방법 "빠른"웹 요청은 일반적으로 네트워크 연결 및 서버의 응답 시간이 아니라 사용중인 클라이언트에 의해 결정됩니다 발생합니다.

그래서 이러한 요구 사항으로 무엇이든 할 것입니다.

체크 아웃 requests 패키지를. 그것은 파이썬을위한 훌륭한 http 클라이언트 라이브러리입니다.

+0

답장을 보내 주셔서 감사합니다. 실용적이 되려면 사실 라이브러리가 다른 라이브러리보다 훨씬 빠릅니다. 내부 구현에서 빠른 반환 대신 데이터 일관성에 우선 순위를 매길 수도 있습니다. 좋은 균형을 갖춘 것이 있다면 알아 두어야 할 것. 나는 귀하의 링크에 다시 관심을 보이기를 바랍니다. – raul

+0

아마도 http://docs.python-requests.org – furas

+0

이 링크가 없어도이 링크가 마음에 들었습니다. 내가 지금 읽고있어, 고마워요 @ 푸라 – raul