2012-12-04 5 views
9
내가 나중에 음모를 꾸미고을 보유 할 필요가 CDATA 블록의 번호와 XML 파일을 구문 분석 할 필요가

와 XML의 :구문 분석 CDATA 파이썬

<process id="process1"> <log name="name1" device="device1"><![CDATA[timestamp value]]]></log> <log name="name2" device="device2"><![CDATA[timestamp value, timestamp value, timestamp]]]></log> </process>

내가 반복하고 신속하게이 작업을 수행해야합니다 , 그리고 나는 이것을하기위한 최선의 방법을 찾고있다. 나는 ElementTree가 더 빠른 방법이라는 것을 읽었지만 다른 제안들에 대해서 개방적이다.

+0

xtree는 요소 트리보다 문제를 해결하는 또 다른 방법입니다. – Rajendra

답변

10

여기에 그것을 수행하는 방법의 두 가지 예 :

from lxml import etree 
import xml.etree.ElementTree as ElementTree 

CONTENT = """ 
<process id="process1"> 
<log name="name1" device="device1"><![CDATA[timestamp value]]></log> 
<log name="name2" device="device2"><![CDATA[timestamp value, timestamp value, timestamp]]></log> 
</process> 
""" 

def parse_with_lxml(): 
    root = etree.fromstring(CONTENT) 
    for log in root.xpath("//log"): 
     print log.text 

def parse_with_stdlib(): 
    root = ElementTree.fromstring(CONTENT) 
    for log in root.iter('log'): 
     print log.text 

if __name__ == '__main__': 
    parse_with_lxml() 
    parse_with_stdlib() 

출력 :

timestamp value 
timestamp value, timestamp value, timestamp 
timestamp value 
timestamp value, timestamp value, timestamp 

텍스트는이 두 경우 모두에서 처리 때문이다.

+1

성능면에서'cElementTree'를 사용할 수 있습니다 (참고 : leadind'c'). – jfs