http://code.google.com/p/feedparser/을 사용하여 간단한 뉴스 통합 업체를 작성합니다.FeedParser에서 URL 및 이미지 제거
하지만 순수한 텍스트 (<p>
태그 포함)가 필요하지만 URL 또는 이미지 (예 : <a>
또는 <img>
태그 없음)가 필요합니다.
1.Edit 소스 코드 :
여기에 그 작업을 수행하는 두 가지 방법이 있습니다. http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py
class _HTMLSanitizer(_BaseHTMLProcessor):
acceptable_elements =[....]
는 간단하게는 A & IMG 태그를 제거합니다.
import feedparser
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a')
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img')
내가 feedparser를 사용
2.
은 먼저 두 개의 태그를 제거합니다.어떤 방법이 더 좋습니까?
다른 좋은 방법이 있습니까?
고맙습니다.