2010-04-15 2 views
9

urllib을 사용하여 html 페이지를 가져올 수 있으며 BeautifulSoup를 사용하여 html 페이지를 구문 분석하면 BeautifulSoup에서 읽을 파일을 생성해야합니다.urllib 및 BeautifulSoup을 사용하여 Python을 사용하여 웹에서 정보 검색

import urllib          
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()        
sock.close()           
--> write to file 

urllib에서 파일을 생성하지 않고 BeautifulSoup을 호출하는 방법이 있습니까?

답변

18
from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(htmlSource) 

HTML 문자열을 전달하기 만하면됩니다. urlopen에서 직접 반환 된 객체를 전달할 수도 있습니다.

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f) 
관련 문제