2011-09-14 4 views
0

xml.dom.minidom을 사용하여 ODF 문서를 구문 분석하려고합니다. 텍스트 인 모든 요소를 ​​가져오고 싶습니다 : p OR text : h. getElementsByTagName 메소드에 와일드 카드를 추가하는 방법이있는 것처럼 보입니다. 아니면 그렇지?getElementsByTagName (xml.dom.minidom)의 와일드 카드

우노없이 odf 문서를 구문 분석하는 더 좋은 방법이 있습니까?

답변

0

getElementsByTagName은 DOMElement 목록을 반환하므로 두 목록을 간단하게 연결할 수 있습니다.

XPath는 and/or 연산자를 지원하므로이를 사용할 수 있습니다. 대신 elementTree 또는 lxml 모듈을 사용해야합니다.

+0

을 제공하지만이 같은 그들을 필요 나무에서와 같이 주문하십시오. 내가 그들을 concenate하면 ​​올바른 질서가 사라질 것이다. 그러면 다른 도서관을 이용하게 될까요? –

+0

텍스트 : p와 텍스트 : h 사이에 1 대 1 매핑이 있다고 가정하면 파이썬 zip 함수를 사용하여 튜플 목록을 작성하여 튜플이 해당 요소 text : h 및 text : p로 구성되도록 할 수 있습니다 집단. –

+0

확인. 나는 오히려 lxml을, 나는 생각한다. :) Thnx –

0
root_element.getElementsByTagNameNS('text', '*') 

어쩌면 *

이 나를 위해 일

대신 ?를 넣어하지만, 다른 방법은 주위

<325t4342:Key> fooo </.....>... 

key = (root_element.getElementsByTagNameNS('*', "Key")[0]).firstChild.data.strip() 

나에게 "foo는"