XML 파서에서 작업하고 있습니다. 목표는 접두사와 태그가 일관성을 유지하지만 네임 스페이스가으로 바뀌는 수많은 xml 파일 을 파싱하는 것입니다.Python에서 xbrl 파일 구문 분석
내가 따라서 시도하고 다음 중 하나를
- 는 네임 스페이스 접두사를 해결 (교체)하지 않고 단지
<prefix:tags>
하여 XML을 구문 분석합니다. 접두어는 문서간에 변경되지 않습니다. - 은 식별자 (
<prefix:tag>
)가 적절한 네임 스페이스로 바뀔 수 있도록 네임 스페이스를 자동으로로드합니다. - 는 태그 내가
xml.etree.ElementTree
으로 시도
하여 XML을 구문 분석합니다.
나는 또한 저자가 lxml
나를 위해 네임 스페이스를 수집 할 수 있어야한다고 제안 어디 대답을 읽을 수 here 있지만 나를 도울 수 LXML에서 XMLParser의 모든 구성 옵션을 찾을 수 없습니다 lxml
살펴했다 자동으로
흥미롭게도, parsed_file = etree.XML(file)
오류와 함께 실패합니다 내가 분석 할 파일의
lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1
한 예입니다 here
'items = tree.xpath ("* [local-name (.) = 'a_tag_goes_here']")'이 작업을하고있는 것처럼 보입니다. – NoIdeaHowToFixThis