2013-11-03 3 views
0

그래서 나는 내 실사를 한 것으로 생각하고 꽤 옳은 것을 찾을 수 없다.Python에서 HTML 요청의 텍스트를 반환

저는 git 서버 (url은 .txt로 끝납니다)에서 텍스트 파일을 구문 분석하려고하는데 urllib 및 urllib2를 사용하여 시도했습니다. 다음 작업을 수행 할 때 :

response2 = urllib.urlopen(url2) 
data2 = response2.read() 

내가 얻는 것은 html 출력입니다. 나는 일반 텍스트를 원한다. 나는 외부 라이브러리 (무언가 수프가 아름답다)를 사용할 수 있다는 것을 알고 있지만, 나는 그것을 간단하게하고 싶다. HTML이 아닌 텍스트 파일을 표현하는이 페이지의 원시 (복사 - 붙여 넣기 스타일) 출력을 가져올 수 있어야합니다. 나는 또한 서버에서 다운로드하고 싶지 않다.

미리 감사드립니다. 코드 신이셔!

편집 :

내가 실제로뿐만 아니라 자식과 인증 문제에 봉착 이니까 실현, 그래서 간단한 HTML - 텍스트 거래보다 더 될 것 같은이 보인다. 나는 내가 다른 길을 찾을 것이라고 생각한다. urllib.urlretrieve

urlretrieve 방법은 사용자가 지정한 경로/파일 이름에 파일을 로컬로 저장할 수 있습니다에서

+0

의 URL은 무엇과 같이해야합니까? 서버가 보내는 것은 무엇입니까? HTTP content-type은 무엇입니까 (파일 확장자와 무관합니다)? Wireshark로 트래픽을 조사하여 전선을 가로 질러 오는 것을 확인 했습니까? 누구나 당신을 도울 수 있기 전에 많은 정보가 필요합니다. –

답변

0

당신은 봐야한다.

따라서, 귀하의 코드는

filename, headers = urllib.urlretrieve(url) 
data = open(filename).read() 
관련 문제