2012-11-16 2 views
2

의 문자열의 일부를 추출 : http://www.nyse.com/about/listed/chn.html아름다운 수프,이 URL을 고려하여 배열

나는이 문자열을 검색하는 것을 시도하고있다 : '태평양 (일본 제외) 펀드는'그러나 그것은 수프에 있지!?!

fundCode = 'chn' 
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html' 
html = urllib2.urlopen(url) 
soup = BeautifulSoup(html) 

테이블의 다른 부분이 수프에있는만큼 이상합니다.

아이디어가 있으십니까? 당신이 (브라우저없이) HTML을 다운로드하는 경우

답변

1

content = html.read() 

당신은 페이지 데이터는 자바 스크립트 기능에 의해 제공됩니다 볼 수 있습니다.

이 페이지에서 정보를 추출하려면 JavaScript를 처리 할 수있는 라이브러리가 필요합니다.

한 가지 방법은 Selenium을 사용하는 것이며 다른 방법은 PyQt's WebKit을 사용하는 것입니다.

+0

매력처럼 작동합니다. – Sam