를 적절한 형식을 가지고 있지 않을 때, 나는 이런 링크의 목록이 있습니다예외 처리 입력 링크가 예를 들어
linklists = ['www.right1.com', www.right2.com', 'www.wrong.com', 'www.right3.com']
각 한 Right, Right 2 및 right3의 HTML의 형태 것은 :
<html>
<p>
hi
</p>
</html>
와 나는 코드 등을 사용하고 있습니다 :
<html>
<p>
hi
</p>
<strong>
hello
</strong>
</html>
및 www.wrong.com HTML의 형태는은 (실제 HTML은 훨씬 더 복잡하다) 이 :
from BeautifulSoup import BeautifulSoup
stronglist=[]
for httplink in linklists:
url = httplink
page = urllib2.urlopen(url)
html = page.read()
soup = BeautifulSoup(html)
findstrong = soup.findAll("strong")
findstrong = str(findstrong)
findstrong = re.sub(r'\[|\]|\s*<[^>]*>\s*', '', findstrong) #remove tag
stronglist.append(findstrong)
내가하고 싶은 것입니다 :
는는
'linklists'
이
'stronglist'
을 나열<strong>
추가 사이의 데이터를 찾을 수 목록에서 HTML 링크를 통해 얻을 수
그러나 문제는 다음과 같습니다. 잘못된 링크 (www.wrong.com
)가 있습니다. 그러면 코드에 오류가 표시됩니다 ...
내가 원하는 것은 예외 처리 (또는 다른 것)가 링크에 '강한'필드 (오류 있음)가 없으면 코드에 strong에서 링크에서 데이터를 가져올 수 없으므로 'null'을 문자열에 추가합니다.
이 문제를 해결하는 경우 내가 '사용하고 있지만, 그것은 나
어떤 제안에 대한 조금 어렵다?
나는 당신을 위해 당신의 모든 것을 투자하지 않을 것입니다. –