2011-04-07 10 views
1

주어진 블로그 집합의 현재 동향을 파악할 블로그 매핑 사이트를 구축하려고합니다. 편의상, 저는 Wordpress 블로그 목록에 중점을 둘 것입니다.Python : WordPress 구문 분석 HTML

Wordpress HTML을 구문 분석하기위한 Python 패키지가 있습니까? 내가 찾고

:

  • 식별
  • 블로그의 속성 (이름, 게시물, RSS 링크, 블로그 롤 ...)
  • 후 속성 ((주어진 HTML 워드 프레스 블로그입니다) 제목, 텍스트, 태그 ...)

그런 패키지가 없다면 직접 오픈 소스 프로젝트로 구현할 수 있지만 기존 프로젝트를 사용하면 많은 시간을 절약 할 수 있습니다.

+1

[아름다운 수프] (http://www.crummy.com/software/BeautifulSoup/)를 보시려면 – nmichaels

+0

나는 더 현대적인 것으로 lxml을 제안합니다. – Guard

답변

2

WordPress HTML을 특별히 구문 분석하는 구문 분석 라이브러리는 없지만 html5lib, BeautifulSoup과 같은 범용 HTML 구문 분석 라이브러리가 있습니다.

나는 당신을 html5lib+lxml.html 추천한다.