2008-11-07 2 views
2

나는 모든 이미지와 주어진 URL에 포함 된 플래시 비디오 (예 : YouTube)를 가져와야하는 웹 앱을 만들고 있습니다. 파이썬을 사용하고 있습니다.웹 페이지를 스캔하여 이미지 및 YouTube 퍼가기를 얻는 방법은 무엇입니까?

나는 봤지만 이것에 대한 좋은 정보를 찾지 못했을 것이다. (아마도 내가 무엇을 검색 할 지 모르겠기 때문이다.) 누군가는 이것에 대한 경험이 있고 그것을 어떻게 할 수 있는지 알고 있는가?

사용할 수있는 코드가 있으면 코드 예제를보고 싶습니다.

감사합니다.

답변

7

BeautifulSoup은 훌륭한 스크린 스크래핑 라이브러리입니다. urllib2를 사용하여 페이지를 가져오고 BeautifulSoup를 사용하여 페이지를 구문 분석합니다. 다음은 해당 문서의 코드 샘플입니다.

import urllib2 
from BeautifulSoup import BeautifulSoup 

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php") 
soup = BeautifulSoup(page) 
for incident in soup('td', width="90%"): 
    where, linebreak, what = incident.contents[:3] 
    print where.strip() 
    print what.strip() 
    print 
+0

이 새로운 기능을 사용하면 페이지를 긁어 내고 비디오 URL을 얼마나 정확하게 표시 할 수 있습니까? – Vincent

관련 문제