일반적으로 내 HTML 구문 분석 요구에 lxml을 사용하지만 Google App Engine에서는 사용할 수 없습니다. 분명한 대안은 BeautifulSoup이지만 잘못된 형식의 HTML에서 너무 쉽게 발견됩니다. 현재 libxml2dom을 테스트 중이며 더 나은 결과를 얻고 있습니다.GAE 용 HTML 구문 분석기
어떤 순전히 파이썬 HTML 파서가 가장 잘 수행 되었습니까? 내 우선 순위는 속도보다 나쁜 HTML을 처리 할 수있는 능력입니다. BeautifulSoup documentation에서
찰흙을! libxml2는 GAE의 Python에 포함되어 있지 않으므로 libxml2dom은 제외되었습니다. – hoju