2012-03-12 4 views
0

http://code.google.com/p/feedparser/을 사용하여 간단한 뉴스 통합 업체를 작성합니다.FeedParser에서 URL 및 이미지 제거

하지만 순수한 텍스트 (<p> 태그 포함)가 필요하지만 URL 또는 이미지 (예 : <a> 또는 <img> 태그 없음)가 필요합니다.

1.Edit 소스 코드 :

여기에 그 작업을 수행하는 두 가지 방법이 있습니다. http://code.google.com/p/feedparser/source/browse/branches/f8dy/feedparser/feedparser.py

class _HTMLSanitizer(_BaseHTMLProcessor): 
    acceptable_elements =[....] 

는 간단하게는 A & IMG 태그를 제거합니다.

import feedparser 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('a') 
feedparser._HTMLSanitizer.acceptable_elements = feedparser._HTMLSanitizer.acceptable_elements.remove('img') 

내가 feedparser를 사용

2.

은 먼저 두 개의 태그를 제거합니다.

어떤 방법이 더 좋습니까?

다른 좋은 방법이 있습니까?

고맙습니다.

답변

-1

일반적으로 빠를수록 좋으며, 파이썬의 timeit module을 사용하여 확인할 수 있습니다. 그러나 귀하의 경우에는 소스 코드를 변경하지 않고 두 번째 옵션을 계속 사용하는 것을 선호합니다. 유지 보수가 용이합니다.

다른 옵션으로는 맞춤 구문 분석기 작성 (최대 속도를 위해 C 확장명 사용) 또는 사이트의 템플릿 엔진 (Django 어쩌면?)이 태그를 제거하도록 할 수 있습니다. 글쎄, 나는 내 마음을 바꿨다. 마지막 해결책이 가장 좋은 것 같다. ...