2011-08-30 10 views
1

파이썬의 아름다운 스톤 스프를 사용하여 this web page에서 데이터를 추출합니다. 나는 <li> 개체를 얻을이 코드 세그먼트를 사용하고 있습니다 :파이썬을 사용하여이 html 세그먼트에서 문자열을 가져 오는 방법

req = urllib2.Request(url) 
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.3) Gecko/200809241\ 
7 Firefox/3.0.3') 

    response=urllib2.urlopen(req) 
    link=response.read() 
    response.close() 

    soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES) 
    p = soup.find('ul',{"class":"vod_ordering"}) 

    j = 0 
    while j < len(p('li')): 
     li= p('li')[j] 
     j = j+1 

을 그리고 지금은 그것의 부분으로 <li> 객체를 분해합니다. 아이콘, 링크 및 제목을 얻으려는 문제는 없습니다 (단, 알고있는 내용). </strong></img> 사이의 설명을 가져올 수 없으며 <li> 이외의 태그에 속하지 않습니다.

나는 내용을 사용하려하지만 오류 얻을 : 나는이 작업을 수행 할 때

Error Contents: sequence item 1: expected string or Unicode, Tag found 

을 :

print ''.join(li.contents) 

가 어떻게 그 문자열을받을 수 있나요?

답변

1

나는 시도 할 것이다

print ''.join(map(str, li.contents)) 
관련 문제