에 복사 할 때 엉망이 점점 문자는, 브라우저에서 그 읽파이썬 BeautifulSoup로 - 새 파일
(239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)
나는 소스 HTML에서 그것을 끌어와 새 HTML 문서에서 그것을 던질 수 : -
file_details 항목을 터미널에 인쇄하면 원하는 문자열을 볼 수 있습니다. 나는 new_soup의 HTML을 렌더링 할 때
, 내가 얻을 : -
‎ (239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)
는 결과 HTML을보고, 나는 여분의 문자 태그로에 추가 된 것을 볼 수 있습니다.
나는 그들이 어디에서 오는지 모르겠지만, 추측에 나도 잘못 인코딩으로 읽고있다, 또는 잘못된 인코딩으로 쓰기는
어떤 제안을 soomewhere?
당신은 BeautifulSoup로 문서를 보면 먹고 싶어,보다 구체적으로 [ "인코딩"] (HTTP ://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings), [ "출력 인코딩"] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-encoding). – iljau
완벽. 나는'utf-8'로 인코딩하고 있었고'latin-1'이었을 겁니다. –