urllib2 및 beautifulsoup를 사용하여 거미를 쓰고 있습니다. 하지만 몇 가지 문제가 생깁니다.python urllib2가 올바른 웹 페이지를 가져올 수 없습니다.
웹 페이지를 제대로 다운로드 할 수 없습니다. 나는 리눅스 터미널에
GET 'http://thesite.html'
,wget 'http://thesite.html'
,curl -O 'http://thesite.html'
,
을 시도했지만 많은 질량을 가지고, 잘못된 코덱처럼 보인다.
그런 다음
file_get_contents('http://thesite.html')
을 사용해 보았지만 올바른 웹 페이지를 가져올 수 없습니다.그런 다음 시도해 보니
urllib2.urlopen('http://thesite.html')
을 사용할 수 없습니다.- 인코딩을 검색 할 수 없습니다.
s = urllib2.urlopen('http://thesite.html') print chardet.detect(s)
출력{'confidence':0.0, 'encoding':None}
- 나는 또한 urllib.request와 python3을 시도, 나는 바이트 문자열을 얻을 수 있습니다,하지만 난이 UTF-8로 바이트를 디코딩 할 때, 나는 오류 메시지를 받았습니다.
누구나 도움이 될 수 있습니까? 웹 브라우저와 같은 올바른 웹 페이지를 얻는 방법.
나는 두 가지 오류 메시지를 게시하는 것이 사람들이 당신의 문제를 이해하는 데 도움이 될 수 있다고 생각합니다. – isedev
페이지가 사용자 에이전트를 거부합니다. 그것을 바꾸어보십시오. –
나는 세부 사항을 게시하기에는 너무 어색한 도둑이되고 싶다. – xcaptain