2011-12-12 2 views
0

파이썬에서 조작 된 XHTML 페이지를 구문 분석하려고합니다. 그저 같은 유형의 태그를 몇 개 가져오고 싶지만 불가능한 것 같습니다. 일반적인 XHTML 파서는 잘못된 형식을 좋아하지 않으며 BeautifulSoup은 구문 오류로 인해 작동하지 않습니다. 잘못된 형식의 XHTML을 구문 분석하고 같은 유형의 태그 몇 개를 가져 오는 가장 좋은 방법은 무엇입니까?Python 3.2에서 XHTML 구문 분석

답변

0

도움을 주셔서 감사합니다! "불행히도"나는 this 파서를 사용하고 html.parser.HTMLParser(strict=False)으로 설정하여 직접 해결했습니다. 이로 인해 조작 된 XHTML을 아주 잘 읽게되었습니다.

+0

strict = False가 기본값이므로 Python 3.3부터 사용되지 않으며 Python 3.5에서 제거됩니다. –

0

당신은 내가 당신의 XHTML이, 부정 얼마나 확실하지 않다 pyquery

시도 할 수 있지만, 그것은 시도 가치가있다.

2

"정상"파서? lxml은 보통 "정상적인"형식이지만 잘못된 형식의 html로 잘 처리됩니다. :-)