1
는 다음 코드를 생각해 보자. lxml
을 올바르게 처리하는 방법은 무엇입니까?이상한 lxml이 동작
는 다음 코드를 생각해 보자. lxml
을 올바르게 처리하는 방법은 무엇입니까?이상한 lxml이 동작
HTML에는 자체 마감 태그가 없습니다. 그것은 XML입니다.
import lxml.etree
html = '<div><br />Hello text</div>'
doc = lxml.etree.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())
인쇄
텍스트가 태그 내에 아니라고<br/>Hello text
참고. lxml
에는 "tail
"개념이 있습니다.
>>> print text.text
None
>>> print text.tail
Hello text
유효한 XHTML을 처리 할 때 html 대신 etree를 사용할 수 있습니다.
import lxml.etree
html = '<div><br />Hello text</div>'
doc = lxml.etree.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())
재미있는 것은, 일반적으로 XHTML을 HTML로 변환하려면이 옵션을 사용할 수 있습니다
import lxml.etree
import lxml.html
html = '<div><br>Hello text</div>'
doc = lxml.html.fromstring(html)
text = doc.xpath('//text()')[0]
print lxml.etree.tostring(text.getparent())
출력 : "<br/>Hello text"