2013-08-08 5 views
3

이것에 들어가자.파이썬으로 안전한 웹 사이트에서 HTML을 추출하고 파싱 할 수 있습니까?

좋아, 스크립트를 작성해야합니다 (어떤 언어가 마음에 들지는 않지만 Python이나 Javascript와 같은 것을 선호하지만 어떤 것이 든 배우려면 시간이 걸립니다). 스크립트는 여러 URL에 액세스하고 각 사이트의 텍스트를 추출하여 내 PC의 폴더에 저장합니다. (거기에서 나는 어떻게하는지 알 수있는 파이썬으로 데이터를 조작하고있다.)

EDIT : 현재 파이썬의 NLTK 모듈을 사용하고있다. 여기에 내 코드의 간단한 버전 :

url = "<URL HERE>" 
html = urlopen(url).read() 
raw = nltk.clean_html(html) 
print(raw) 

이 코드는 HTTP과 모두 잘 작동이 HTTPS 있지만 인증이 필요한 인스턴스.

보안 인증을 다루는 Python 모듈이 있습니까?

미리 도움을 청하십시오! 그리고 이것을 나쁜 질문이라고 생각하는 개조 사람들에게, 나에게 더 나은 방법을 알려주세요. 나는 사람들이 아니라 Google이 필요로하는 아이디어가 필요합니다.

답변

1

Mechanize (2)의 제안에 대해, 나는 그것으로 보이는 것, 다른 하나는 단지 urllib2가 함께

+0

감사하고, 하나 개의 옵션입니다. - 기본 인증 만 처리 할 수있는 것처럼 보입니다. –

+0

또 다른 옵션은 Selenium – ton1c

+0

입니다. Python의 urllib2는 작동하지 않습니다. (아니 어쨌든 내 땜질과) 액세스하려고하는 사이트는 기본 인증을 사용하지 않는, 그들은 ASP를 사용합니다. 여전히 Mechanize를 조사해야합니다. 브라우저 세션을 시뮬레이트하고 싶지는 않지만, ** only ** 옵션 인 경우 ... _sigh_ –

관련 문제