4chan 사이트의 소스를 가져 와서 스레드에 대한 링크를 가져 오려고했습니다.re.findall (duplicates) 문제
regexp (작동하지 않음)에 문제가 있습니다. 출처 :
import urllib2, re
req = urllib2.Request('http://boards.4chan.org/wg/')
resp = urllib2.urlopen(req)
html = resp.read()
print re.findall("res/[0-9]+", html)
#print re.findall("^res/[0-9]+$", html)
문제가 있습니다 :
print re.findall("res/[0-9]+", html)
중복을주고있다. 내가 사용할 수 없습니다
은 :
print re.findall("^res/[0-9]+$", html)
나는 파이썬 문서를 읽고 있지만 도움이되지 않았다.
그래서 '정규식으로 HTML을 구문 분석'이 작동하지 않습니다. BeautifulSoup 가져와. – user225312
똑같은 "중복"을 반환합니다. :) –