요즘 일부 웹 크롤러 스크립트를 만들고 있지만 문제는 내 인터넷이 매우 느립니다. 그래서 나는 기계화 또는 urllib 사용하여 multithreading 가능한 webcrawler 또는 그렇게 생각했다. 경험이 있다면 누구나 정보를 공유합니다. 나는 구글에서 찾아 보았지만 많은 유용한 정보를 찾지 못했습니다. 미리 감사드립니다.스레드 지원이있는 파이썬 웹 크롤러
2
A
답변
3
this 스택 오버 플로우 스레드에 대한 좋은 예제가 있습니다.
1
새로운 요청을 보내기 전에 결과가 도착할 때까지 기다릴 필요가 없으므로 여러 웹 사이트에 동시에 여러 요청을하면 결과가 확실히 향상됩니다.
그러나 스레딩은이를 수행하는 방법 중 하나 일 뿐이며 (나쁘지 만 추가 할 수도 있습니다.) 그것을 위해 스레딩을 사용하지 마십시오. 다른 요청을 보내기 전에 응답을 기다리지 마십시오! 그것을하기위한 스레딩이 필요 없습니다.
scrapy을 사용하는 것이 좋습니다. 빠른 상위 수준의 스크린 스크래핑 및 웹 크롤링 프레임 워크로 웹 사이트를 크롤링하고 구조화 된 데이터를 페이지에서 추출하는 데 사용됩니다. 이것은 파이썬으로 작성되었으며 동시에 (스레드를 사용하지 않고) 동시에 데이터를 가져 오는 많은 동시 연결을 만들 수 있습니다. 정말 빠릅니다. 또한 어떻게 구현되는지 확인할 수 있습니다.
3
Practical threaded programming with Python은 가치가 있습니다.
관련 문제
- 1. 파이썬 크롤러
- 2. PHP 기반 웹 크롤러 또는 자바 기반 웹 크롤러
- 3. 웹 크롤러 구축
- 4. 자동 웹 크롤러 구축
- 5. 경쟁력있는 가격을위한 웹 크롤러
- 6. 적대적인 웹 크롤러 식별
- 7. java 웹 크롤러
- 8. 다른 웹 크롤러 Nutch
- 9. 웹 수집기/제품 크롤러
- 10. 웹 크롤러 필요
- 11. 혜성 지원이있는 Apache
- 12. 알려진 웹 크롤러 목록이 있습니까?
- 13. 크롤러 용 웹 페이지로드 번복
- 14. .Net 기반 웹 크롤러 샘플
- 15. 백 링크보고 웹 사이트 크롤러?
- 16. CakePHP 웹 크롤러 메모리 누수
- 17. 웹 크롤러 링크 추출 문제
- 18. 속도를위한 최고의 웹 그래프 크롤러?
- 19. 웹 소스 코드를 검색하는 웹 크롤러
- 20. 프록시 지원이있는 다중 스레드 스파이더 용 Python 패키지?
- 21. 파이썬, 멀티 스레드, 웹 페이지 가져 오기, 웹 페이지 다운로드
- 22. 파이썬 스레드/큐 문제
- 23. 파이썬, 스레드 및 gobject
- 24. 파이썬 스레드 동기화
- 25. 파이썬 스레드 및 소켓
- 26. 파이썬 스레드 프로파일 링
- 27. 파이썬 스레드 가비지 콜렉션
- 28. 파이썬 스레드 오류
- 29. 파이썬 스레드 종료 코드
- 30. 파이썬 스레드 덤프
+1 좋은 샘플 코드입니다. 나는 그것을 나 자신을 사용할 것이라고 생각한다! – hughdbrown
감사! 그것은 나를 위해 매우 유용한 정보 – paul