1
저는 파이썬에서 초보자입니다. 나는 조건이 충족 된 후 HTML 셀에서 URL을 열 수있는 웹 스크 레이 핑 도구를 만들고 있습니다. 모든 종류의 도움이 유용 할 것입니다. 감사! 특정 조건이 충족되면 URL이 열립니다.
이
은 내가 HMTL 코드 일하고된다 : DIV 클래스 = "인라인 블록"의 값보다 큰 16 % 인 경우<td data-href="https://www.example.com" data-th="Grade & Rate">
<div class="green inline-block m-right-10">A2</div>
<div class="inline-block">16%</div>
</td>
내가 데이터 HREF에서 URL을 열려면. 나는 그것을하기 위해 부동 소수로 먼저 퍼센트를 변환해야한다는 것을 알고 있습니다. 내가 알고 싶은 것은 URL을 여는 방법뿐입니다.
지금까지는 스크립트로 빌드 할 때까지 셀레늄과 beautifulsoup를 사용하고 있습니다. 이것은 내가 프로젝트를 어떻게 구축했는지 보여주는 스냅 샷입니다.
chromedriver = 'C:\\chromedriver.exe'
browser = webdriver.Chrome(chromedriver)
....
html = browser.page_source
soup = BeautifulSoup(html, "lxml")
tags = soup('td')
urllist = list()
for tag in tags:
z = tag.get('data-href','abcde')
if z not in urllist:
urllist.append(z)
테이블의 HTML을 구문 분석 할 수 있습니다. 표 안의 특정 블록이 필자의 요구 사항 (16 % 이상)과 일치 할 때 다시 참조하는 방법을 모르겠습니다. urllib.urlretrieve는 페이지를 다운로드하기위한 것입니다. 나는 그것을 열지 않고 그것을 열어보고 싶다. 내 프로젝트에 셀레늄과 아름다운 도서관의 조합을 사용합니다. 예를 들어, browser.get (url) 함수를 사용하여 내 URL을 여는 셀레늄을 사용하고 있습니다. –