크롤러를 작성 중이므로 robots.txt 파서를 구현하고 있습니다. 표준 라이브러리를 사용하고 있습니다. robotparser.Robotparser가 올바르게 구문 분석되지 않는 것 같습니다.
이 robotparser이 하지 내가 구글의 robots.txt를 사용하여 내 크롤러를 디버깅하고, 올바르게 구문 분석 것 같다.
또한 페이스 북과 유래에서의 robots.txt와 같은 시도, 때로는 "작업"에 보인다 때로는 실패 할 것 때문에
In [1]: import robotparser
In [2]: x = robotparser.RobotFileParser()
In [3]: x.set_url("http://www.google.com/robots.txt")
In [4]: x.read()
In [5]: x.can_fetch("My_Crawler", "/catalogs") # This should return False, since it's on Disallow
Out[5]: False
In [6]: x.can_fetch("My_Crawler", "/catalogs/p?") # This should return True, since it's Allowed
Out[6]: False
In [7]: x.can_fetch("My_Crawler", "http://www.google.com/catalogs/p?")
Out[7]: False
그것은 재미 (다음 예는 IPython에서이다). 이것은 robotpaser
모듈의 버그입니까? 아니면 여기서 뭔가 잘못하고있는 걸까요? 그렇다면, 무엇? this 버그 내가 robotparser 문제에 대해 아무것도 찾지 못했습니다 몇 Google 검색 후 관련 아무것도
또한 Linux 컴퓨터에서 Python 2.7.3을 사용하고 있습니다 (Arch Linux) –