파이썬에서 조작 된 XHTML 페이지를 구문 분석하려고합니다. 그저 같은 유형의 태그를 몇 개 가져오고 싶지만 불가능한 것 같습니다. 일반적인 XHTML 파서는 잘못된 형식을 좋아하지 않으며 BeautifulSoup은 구문 오류로 인해 작동하지 않습니다. 잘못된 형식의 XHTML을 구문 분석하고 같은 유형의 태그 몇 개를 가져 오는 가장 좋은 방법은 무엇입니까?Python 3.2에서 XHTML 구문 분석
0
A
답변
0
도움을 주셔서 감사합니다! "불행히도"나는 this 파서를 사용하고 html.parser.HTMLParser(strict=False)
으로 설정하여 직접 해결했습니다. 이로 인해 조작 된 XHTML을 아주 잘 읽게되었습니다.
0
당신은 내가 당신의 XHTML이, 부정 얼마나 확실하지 않다 pyquery
시도 할 수 있지만, 그것은 시도 가치가있다.
2
"정상"파서? lxml은 보통 "정상적인"형식이지만 잘못된 형식의 html로 잘 처리됩니다. :-)
관련 문제
- 1. 루비를 사용하여 XHTML 구문 분석
- 2. Objective-C에서 XHTML 구문 분석
- 3. 인라인 태그가있는 XHTML 구문 분석
- 4. iPhone 구문 분석 xhtml + css
- 5. Bing에서 XHTML 결과를 구문 분석
- 6. Python 3.2에서 KeyError 구문 오류가 발생했습니다.
- 7. Python XML 구문 분석
- 8. Python - XML 구문 분석
- 9. Python 구문 분석 네트워크
- 10. Python XML 구문 분석
- 11. Python 구문 분석
- 12. VBScript에서 Microsoft.XMLHTTP를 사용하여 XPATH로 XHTML 구문 분석
- 13. Java 및 xpath - xHtml 구문 분석 문제
- 14. Python + getopt - 구문 분석 문제
- 15. Python ElementTree XML 구문 분석
- 16. Python SOAP 응답 구문 분석
- 17. Python 구문 분석 프레임 워크
- 18. python xml.dom 구문 분석 문제
- 19. Python : WordPress 구문 분석 HTML
- 20. python csv 파일을 구문 분석
- 21. DreamPie가 Python 3.2에서 작동하지 않습니다
- 22. Python 3.2에서 사전에 사전 추가하기
- 23. xHTML 구문 질문
- 24. XHTML 올바른 구문
- 25. 자바 스크립트를 통한 XHTML 페이지 구문 분석 문제
- 26. 끔찍한 성능 XML 문서로 Doctype이있는 XHTML 파일을 구문 분석
- 27. Python HTML 구문 분석 BaseHTTPServer의 POST 데이터
- 28. Python 2.7에서 msg/eml 파일 구문 분석
- 29. Python BeautifulSoup 특정 텍스트 구문 분석
- 30. Python - 많은 URL 병합 및 구문 분석
strict = False가 기본값이므로 Python 3.3부터 사용되지 않으며 Python 3.5에서 제거됩니다. –