나는 많은 텍스트가 포함 된 많은 xml 파일을 가지고 있습니다. 이 텍스트는 소문자를 구두점을 제거해야합니다. 하지만 파이썬을 사용하여 모든 태그를 무시하고 싶다고 말하는 법을 모릅니다. 파이썬을 사용하여 많은 XML 파일에서 태그를 무시하는 방법
나는 ElementTree라는 XML 파서를 발견하고 나는 태그를 찾을 수있는 정규 표현식이 있습니다pattern = re.compile ('<[^<]*?>')
내가 그것을 테스트를하고 나에게 첫 번째 태그 (이름이 많은 태그가)에서 텍스트 만 제공합니다. 왜?
text = "<root> <test>aaaaaaa </test> <test2> bbbbbbbbb </test2> </root> <root> <test3> cccccc </test3> <test4> ddddd </test4> </root>"
pattern = re.compile ('<[^<]*?>')
tmp = pattern.findall(content, re.DOTALL)
을 그리고 그것은 나에게 제공합니다 :
는 그래서 다른 테스트가 모든 태그를 얻을 수 있도록 문자열 테스트
['</test>', '<test2>', '</test2>', '</root>', '<root>', '<test3>', '</test3>', '<test4>', '</test4>', '</root>']
왜 안 <root> <test>
도?
귀하의 XML가 표시되지 않습니다 유효하다. 두 번 있습니다. 열 0 라인 173 : –
내 지점 내 xml 파일에 많은 태그가 있음을 보여주고 있었고, 난 만이 오류와 함께 첫 번째까지 텍스트 얻을 : 문서 요소 후 정크 : xml.parsers.expat.ExpatError를 라인 173은 두 번째 파일 인 이 시작되는 xml 파일에 있습니다. –
user1262403
XML 파일에 특수 문자 또는 특정 인코딩이 있기 때문에이 오류가 발생할 수 있습니다. –