웹 사이트에서 RSS 링크를 찾으려고합니다. 하지만 src에 rss 단어가 포함되어 있기 때문에 내 코드는 img src 및 css 링크도 반환합니다.정규식을 사용하여 웹 페이지에서 RSS 링크 찾기
import urllib2
import re
website = urllib2.urlopen("http://www.apple.com/rss")
html = website.read()
links = re.findall('"((http)s?://.*rss.*)"',html)
for link in links:
print link
사이트가 동일하지 않은 경우 어떻게해야합니까? 많은 웹 페이지에서이 작업을 수행하고 있습니다. – blackmamba
나는 그것을 수동으로한다. 나는 이것에 대한 더 나은 해결책을 모른다. 그러나 수동으로 수행하는 게으른 경우 페이지 (rss & non-rss)에서 모든 href 링크를 구문 분석 할 수 있습니다. 그리고 HEAD 요청을 링크에 보내고 서버 응답을 검사하십시오. 'Content-Type : application/xml'이 있으면 RSS 링크임을 확인하십시오. 그러나 이것은 훨씬 느려지고 대역폭도 계산됩니다. –