웹 크롤러가 웹 사이트를 크롤링하는 것을 막기 위해 일부 서버에는 robots.txt 파일이 있습니다. 웹 크롤러가 robots.txt 파일을 무시하도록하는 방법이 있습니까? 파이썬 용으로 Mechanize를 사용하고 있습니다.웹 크롤러 - Robots.txt 파일을 무시 하시겠습니까?
11
A
답변
26
기계화에 대한 documentation이 샘플 코드가 당신이 원하는.
+0
메타에 대한 질문 [제기하기] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation)에서 문제를 제기하는 것이 좋습니다. 의심되는 저작권 위반을 어떻게 처리해야하는지에 대해서는 서로 다른 의견이있는 것으로 판단되며 확실한 답변이 도움이 될 것입니다. @NullUser 할 것입니다. – NullUserException
+0
나는 내가 가지고있는 모순되는 충고를 한 곳에서 모으고 함께 모으고 공통된 견해로 다가 서지 못하는 지 살펴 보겠습니다! –
8
This는 당신이 필요 같습니다
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
정확하게 수행합니다
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
하지만 당신이 무슨 일을하는지 알고 ...
관련 문제
- 1. 웹 사이트의 robots.txt 파일을 존중하도록 PHP 웹 크롤러 만들기
- 2. 호스트 파일을 무시 하시겠습니까?
- 3. 웹 크롤러 구축
- 4. 어디에 robots.txt 파일을 넣으시겠습니까?
- 5. robots.txt 파일을 어디에 둘까요?
- 6. 웹 크롤러 PHP/Javascript 링크를 파싱 하시겠습니까?
- 7. svn : 소스 제어하에있는 파일을 무시 하시겠습니까?
- 8. Java EE에서 웹 크롤러 생성
- 9. 웹 크롤러 스크립트 나 웹 크롤러 스크립트 코드를 작성했습니다
- 10. PHP 기반 웹 크롤러 또는 자바 기반 웹 크롤러
- 11. 경쟁력있는 가격을위한 웹 크롤러
- 12. 재귀 웹 크롤러 perl
- 13. 자동 웹 크롤러 구축
- 14. java 웹 크롤러
- 15. 다른 웹 크롤러 Nutch
- 16. 적대적인 웹 크롤러 식별
- 17. 웹 크롤러 클래스
- 18. 웹 수집기/제품 크롤러
- 19. 자동 웹 크롤러
- 20. 웹 크롤러 필요
- 21. 얼랑의 병렬 HTTP 웹 크롤러
- 22. 웹 응용 프로그램의 robots.txt 파일 관련
- 23. 크롤러 용 웹 페이지로드 번복
- 24. 파이썬 크롤러
- 25. robots.txt 윤리
- 26. 알려진 웹 크롤러 목록이 있습니까?
- 27. .Net 기반 웹 크롤러 샘플
- 28. 스레드 지원이있는 파이썬 웹 크롤러
- 29. 웹 크롤러 링크 추출 문제
- 30. 속도를위한 최고의 웹 그래프 크롤러?
이렇게하면 법적 문제가 발생할 수 있습니다. –
제발하지 마십시오. –
합법적 인 질문이기 때문에 다운 voting이 좋지 않습니다. 그러나 이것은 나쁜 생각입니다. –