2012-11-02 3 views
0

파이썬을 사용하여 웹 페이지에서 광고 URL을 검색 할 수있는 방법이 있습니까? 예 : http://www.quiltingboard.com/resources/ 오른쪽 상단뿐만 아니라 오른쪽 상단에있는 광고의 URL을 검색하고 싶습니다. 그게 가능하니?파이썬에서 광고 URL 받기

+0

파일을 다운로드하면 두 파일 모두 매우 쉽게 얻을 수 있으며 HTML은 페이지 내에 포함되어 있습니다. Chromes 분석기에 따르면 이미지 광고의 XPath는 // * [@ id = "google_image_div"]입니다. 웹 스크래핑 라이브러리를 살펴보십시오. http://scrapy.org/ –

답변

1

pythons html 파서 중 하나를 사용할 수 있습니다. 당신이 어떤 사이트에 광고를 찾고 있다면 당신은 아마 list of add domains

0

가장 좋은 방법은 아름다운 수프를 사용하는 것입니다해야합니다, 또한 ...

가 빠르고 때문에 내가 제일 좋아하는 lxml이지만, 외부 종속성이 필요 (PyPI 이름 beautifulsoup4) - 페이지에서 원하는 것을 얻는 멋진 인터페이스를 제공합니다. 문서 도구는 here입니다. 내장 된 항목에서 html5lib 또는 lxml까지 다양한 HTML/XML 파서를 사용할 수 있습니다.