2014-12-17 3 views
1
f=open("galcode.txt") 
for element in f: 
galcode_scan = re.search(ur'http://i\.imgur\.com/\w{5,8}', element) 
if galcode_scan: 
    print galcode_scan.groups() 
f.close() 

이 인스턴스의 Galcode.txt는 imgur의 갤러리 html입니다. imgur에 게시되는 갤러리에 대한 모든 링크 목록을 얻으려고합니다. 갤러리 이름을 입력하고 갈코 코드를받은 후 이걸 실행하면 약 15()입니다. 링크 목록을 얻으려면 어떻게해야합니까?빈 튜플을 반환하는 re.search

감사

답변

4

캡처 그룹이 없으므로 .groups()은 빈 튜플을 반환합니다. 대신 .group()을 사용하거나 정규식을 괄호 (ur'(http://i\.imgur\.com/\w{5,8})')로 묶으십시오.

그렇다면 BeautifulSoup, cssselect 또는 다른 HTML 구문 분석 라이브러리를 사용하는 것이 좋습니다.

2

당신이 같은 Beaufitul Soup 같은 HTML 파서를 사용하는 것입니다 할 수있는 가장 쉬운 방법. Python 2.7 및 3에서 사용할 수 있습니다.

관련 문제