2017-10-22 1 views
1

저는 파이썬에서 초보자입니다. 나는 조건이 충족 된 후 HTML 셀에서 URL을 열 수있는 웹 스크 레이 핑 도구를 만들고 있습니다. 모든 종류의 도움이 유용 할 것입니다. 감사! 특정 조건이 충족되면 URL이 열립니다.

은 내가 HMTL 코드 일하고된다 : DIV 클래스 = "인라인 블록"의 값보다 큰 16 % 인 경우

<td data-href="https://www.example.com" data-th="Grade &amp; Rate"> 
    <div class="green inline-block m-right-10">A2</div> 
    <div class="inline-block">16%</div> 
</td> 

내가 데이터 HREF에서 URL을 열려면. 나는 그것을하기 위해 부동 소수로 먼저 퍼센트를 변환해야한다는 것을 알고 있습니다. 내가 알고 싶은 것은 URL을 여는 방법뿐입니다.

지금까지는 스크립트로 빌드 할 때까지 셀레늄과 beautifulsoup를 사용하고 있습니다. 이것은 내가 프로젝트를 어떻게 구축했는지 보여주는 스냅 샷입니다.

chromedriver = 'C:\\chromedriver.exe' 
browser = webdriver.Chrome(chromedriver) 
.... 
html = browser.page_source 
soup = BeautifulSoup(html, "lxml") 
tags = soup('td') 
urllist = list() 
for tag in tags: 
    z = tag.get('data-href','abcde') 
    if z not in urllist: 
     urllist.append(z) 

답변

-1

당신은 HTML 코드를 읽고 URL을 다운로드 urllib.urlretrieve 할 HTMLParser를 사용할 수 있습니다.

+0

테이블의 HTML을 구문 분석 할 수 있습니다. 표 안의 특정 블록이 필자의 요구 사항 (16 % 이상)과 일치 할 때 다시 참조하는 방법을 모르겠습니다. urllib.urlretrieve는 페이지를 다운로드하기위한 것입니다. 나는 그것을 열지 않고 그것을 열어보고 싶다. 내 프로젝트에 셀레늄과 아름다운 도서관의 조합을 사용합니다. 예를 들어, browser.get (url) 함수를 사용하여 내 URL을 여는 셀레늄을 사용하고 있습니다. –

관련 문제