2011-12-05 9 views
11

웹 크롤러가 웹 사이트를 크롤링하는 것을 막기 위해 일부 서버에는 robots.txt 파일이 있습니다. 웹 크롤러가 robots.txt 파일을 무시하도록하는 방법이 있습니까? 파이썬 용으로 Mechanize를 사용하고 있습니다.웹 크롤러 - Robots.txt 파일을 무시 하시겠습니까?

+3

이렇게하면 법적 문제가 발생할 수 있습니다. –

+3

제발하지 마십시오. –

+8

합법적 인 질문이기 때문에 다운 voting이 좋지 않습니다. 그러나 이것은 나쁜 생각입니다. –

답변

26

기계화에 대한 documentation이 샘플 코드가 당신이 원하는.

+0

메타에 대한 질문 [제기하기] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation)에서 문제를 제기하는 것이 좋습니다. 의심되는 저작권 위반을 어떻게 처리해야하는지에 대해서는 서로 다른 의견이있는 것으로 판단되며 확실한 답변이 도움이 될 것입니다. @NullUser 할 것입니다. – NullUserException

+0

나는 내가 가지고있는 모순되는 충고를 한 곳에서 모으고 함께 모으고 공통된 견해로 다가 서지 못하는 지 살펴 보겠습니다! –

8

This는 당신이 필요 같습니다

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

정확하게 수행합니다

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

하지만 당신이 무슨 일을하는지 알고 ...