주어진 웹 사이트에 robot.txt가 있는지 확인하고 해당 파일의 모든 내용을 읽고 인쇄하고 싶습니다. 어쩌면 사전에 내용을 추가하는 것이 좋을 것입니다.Python에서 robots.txt의 내용 읽기 및 인쇄
나는 robotparser
module으로 게임을 시도했지만 어떻게해야하는지 알 수 없습니다.
표준 Python 2.7 패키지와 함께 제공되는 모듈 만 사용하고 싶습니다. @Stefano 대해 Sanfilippo는 제안
내가 그랬어 :
from urllib.request import urlopen
이
Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
from urllib.request import urlopen
ImportError: No module named request
그래서 나는 시도 반환
import urllib2
from urllib2 import Request
from urllib2 import urlopen
with urlopen("https://www.google.com/robots.txt") as stream:
print(stream.read().decode("utf-8"))
만 가지고 :
Traceback (most recent call last):
스트림으로 "(
https://www.google.com/robots.txt") urlopen와 에서, 라인 1, "
파일" AttributeError는 : addinfourl 인스턴스는 어떤 속성 '출구'bugs.python.org에서
는 그 2.7 버전에서 지원되지 뭔가 보이는이 없습니다. 사실이 코드는 Python 3에서 잘 작동합니다. 어떻게하면이 문제를 해결할 수 있습니까?
: 당신이 사전에 내용을 넣어해야하는 경우
는
.split(":")
및.strip()
친구입니다. 항상'whatever.site.name/robots.txt'에 있습니다. – user2357112@jonsharpe 나는이 질문에 대해 다시 한마디했다. 지금 충분히 좁은가요? 질문이 해결되었지만 "보류 중"상태가 제거 될 수 있는지 궁금 해서요. 감사합니다. –