2010-01-29 7 views
5

일반적으로 내 HTML 구문 분석 요구에 lxml을 사용하지만 Google App Engine에서는 사용할 수 없습니다. 분명한 대안은 BeautifulSoup이지만 잘못된 형식의 HTML에서 너무 쉽게 발견됩니다. 현재 libxml2dom을 테스트 중이며 더 나은 결과를 얻고 있습니다.GAE 용 HTML 구문 분석기

어떤 순전히 파이썬 HTML 파서가 가장 잘 수행 되었습니까? 내 우선 순위는 속도보다 나쁜 HTML을 처리 할 수있는 능력입니다. BeautifulSoup documentation에서

+0

찰흙을! libxml2는 GAE의 Python에 포함되어 있지 않으므로 libxml2dom은 제외되었습니다. – hoju

답변

5

: 아름다운 수프의

버전 3.1.0은

그래서, 당신이를 사용하는 것도 도움이 될 수 있습니다 않습니다 버전 3.0.8보다 실제 HTML에 크게 악화 않습니다 이전 버전. 그것이 바로 저자 자신이 권장하는 것입니다.

Beautiful Soup 버전 3.1.0이 절대로 출시되지 않은 것처럼 할 수 있습니다. 버전 3.0.8은 Python 2.3에서 2.6까지 여전히 잘 작동합니다.

+0

고마워요. 3.0.8에서는 성능이 좋아졌지만 여전히 웹 페이지를 유용하게 분석하지 못했습니다. 또한 BS 제작자는 추가 개발에 대한 관심을 잃었으므로 다른 곳에서 시간을 투자하는 것이 좋습니다. – hoju