일부 유니 코드 문자가 포함 된 URL을 검색하는 요청을 사용하여 일부 처리를 원한다. unicode_test_1.html에서 lxml.html 요청과 구문 분석 및 utf-8
r=requests.get(url)
f=open('unicode_test_1.html','w');f.write(r.content);f.close()
html = lxml.html.fromstring(r.content)
htmlOut = lxml.html.tostring(html)
f=open('unicode_test_2.html','w');f.write(htmlOut);f.close()
, 모든 문자는 잘 보이지만, unicode_test_2.html에서 일부 문자가 횡설수설로 변경, 그 이유는?
난 후 지금 일하고있어 보인다
html = lxml.html.fromstring(r.text)
htmlOut = lxml.html.tostring(html,encoding='latin1')
f=open('unicode_test_2.html','w');f.write(htmlOut);f.close()
을 시도했다. 하지만 왜 이런 일이 일어나는 지 모르겠다. 항상 latin1을 사용 하는가? r.text와 r.content의 차이점은 무엇이며, encoding='utf-8'
을 사용하여 html로 출력 할 수없는 이유는 무엇입니까?
내가 추천 한 읽기/비디오 리소스가 정말로 나를 정리했습니다. 감사. – dmoench