2016-12-18 2 views
0

BeautifulSoup을 사용하여이 페이지에서 p0662110597086 (그의 ID)을 검색하여 URL을 추출하려고합니다. 나는 다른 HTML 파서를 포함하여 BeautifulSoup을 사용하여 몇 가지 다른 접근법을 시도했지만, 이들 중 아무 것도 성공하지 못했습니다.productSuite를 찾았습니다.

  <a href="#media" class="movie" hpp="act_video">video</a>   <ul> 
      <li>identity:<span itemprop="productID">p0662110597086</span></li> 
     <li>soll numbers:75</li> 
     <li>solds:97</li> 
     </ul> 

답변

0
import bs4 
html = '''   <a href="#media" class="movie" hpp="act_video">video</a>   <ul> 
      <li>identity:<span itemprop="productID">p0662110597086</span></li> 
     <li>soll numbers:75</li> 
     <li>solds:97</li> 
     </ul>''' 
soup = bs4.BeautifulSoup(html, 'lxml') 

id_tag = soup.find('span', string='p0662110597086') 
a_tag = id_tag.find_previous('a', class_='movie') 

아웃 :

id_tag: <span itemprop="productID">p0662110597086</span> 
a_tag: <a class="movie" hpp="act_video" href="#media">video</a> 

서명 : find_all_previous(name, attrs, string, limit, **kwargs)

서명 : find_previous(name, attrs, string, **kwargs)

는 이러한 메소드는 태그와,691,363 반복하는 .previous_elements를 사용 문서에서 그 앞에 오는210 개의 문자열. find_all_previous() 방법은 모든 일치를 반환하고 find_previous()는 첫 번째 경기를 반환

관련 문제