큰 XML 파일 집합에 잘못된 인코딩이 정의되어 있습니다. 그것은 utf - 8이어야하지만 내용은 라틴어 - 1 문자가있는 곳곳에 있습니다. 이 콘텐츠를 파싱하는 가장 좋은 방법은 무엇입니까?ElementTree로 잘못된 XML 파일에 대한 인코딩 강제
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
편집 :이 어도비 인디자인 IDML 파일과 함께 일어나고, 그것은 "내용"텍스트는 라틴어-1을 가지고 있지만 나머지는 UTF-8이 될 수 보인다. 나는 utf-8로 정상적인 파싱을 선호하고, Content의 유니 코드 텍스트 청크를 utf-8로 다시 인코딩 한 다음 latin-1로 다시 파싱합니다. 이 얼마나 엉망 이죠. ಠ_ಠ
아, 시도했지만 오류가 발생했습니다. 파이썬 2.7에서 새로운 것 같습니다. 감사 – alecco