2010-02-25 2 views
1

xml.etree.ElementTree.parse가 내 xhtml 파일에서 질식합니다. lxml이 html을 처리 할 수있는 곳을 보았습니다. 누군가가 나에게 문서화 된 방법을 구문 분석하고 xhtml을 변경한다고 말할 수 있습니까? 나는 비행에 xhtml에 약간 자바 스크립트를 추가하고 싶다.python 2.6에서 xhtml을 구문 분석합니다.

+1

'질식'이란 무엇입니까? 문서가 올바른 형식의 XML이 아닌가? 비 DTD 읽기 파서가 해결하지 못하는 HTML 관련 엔티티를 사용하고 있습니까? 으로 – bobince

+0

내가 이렇게 내 XHTML 파일을 구문 분석 할 때 의미 '질식' 정의되지 않은 엔티티   : 라인 16, 칼럼 (164) HTML = myElementTree.parse (myXHTMLFile) 응용 프로그램은 다음과 같은 예외가 발생합니다 이전에 다른 언어로 실행했습니다.  은 html에서는 유효하지만 xml에서는 유효하지 않습니다. – Alex

답변

3

BeautifulSoup을 사용해 보셨습니까? 그것은 잘 형성되지 않은 문서를 처리하고 꽤 좋았습니다.

+0

시도하지 않았습니다. xhtml을 파싱 했습니까? – Alex

+0

예 - xhtml 웹 사이트의 데이터 추출기에서 사용했는데 제대로 관리하는 것처럼 보였습니다. BeautifulSoup을 사용하여 문서를 편집하는 것이 얼마나 쉬운 지 잘 모르겠습니다. 문서를 편집하는 것은 내가 추출에만 관심이 있었기 때문입니다. 그러나 추출 부분을 처리 할 것입니다. –

관련 문제