Python에는 XML 및 HTML 파서가 많이 있으며, HTML 문서의 섹션을 추출하는 간단한 방법을 찾고 있습니다. XPATH 구문을 사용하는 것이 좋지만 선택 사항 일뿐입니다. 여기 Python에서 HTML 문서의 특정 요소를 구문 분석하고 추출하는 방법은 무엇입니까?
는src = "<html><body>...<div id=content>AAA<B>BBB</B>CCC</div>...</body></html>"
내가 ID = 내용으로 요소의 몸 전체를 추출 할 예, 그래서 결과는 다음과 같아야합니다 <div id=content>AAA<B>BBB</B>CCC</div>
내가없이 할 수 있다면 그것은 것 새 라이브러리를 설치하는 중입니다.
원하는 요소의 원래 내용을 가져 오는 것이 좋습니다 (다시 포맷되지 않음).
regexp는 XML/HTML 구문 분석에 안전하지 않으므로 사용할 수 없습니다.
후손을 위해 : http://stackoverflow.com/a/1732454/326736 – Kalyan02