나는 nofollow
속성을 가진 모든 링크에 대해 웹 사이트를 구문 분석하려고합니다. 해당 목록을 하나씩 링크로 인쇄하고 싶습니다. 그러나 findall()
의 결과를 내 목록 box
에 첨부하지 못했습니다 (내 시도는 대괄호 안에 있습니다).목록에 결과를 추가하는 방법은 무엇입니까?
내가 뭘 잘못 했니? 당신은 soup.findAll
에 걸쳐 반복되는
import sys
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen(sys.argv[1]).read()
soup = BeautifulSoup(page)
soup.prettify()
box = []
for anchor in soup.findAll('a', href=True, attrs = {'rel' : 'nofollow'}):
# box.extend(anchor['href'])
print anchor['href']
# print box
실패 :
당신은 모든
href
속성을 잡기 위해 지능형리스트를 사용할 수 있을까? 방법? 정확한 오류는 무엇입니까? –@CRUSADER : 전체 문자열과 반대로 각 URL의 개별 문자가 '상자'에 추가됩니다. 내 추측입니다. :-) –
절대적으로 맞을 것 같아요! – mcbetz