2014-01-25 3 views
1
내가 일부 HTML을

에 복사 할 때 엉망이 점점 문자는, 브라우저에서 그 읽파이썬 BeautifulSoup로 - 새 파일

‎(239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)

나는 소스 HTML에서 그것을 끌어와 새 HTML 문서에서 그것을 던질 수 : -

file_details 항목을 터미널에 인쇄하면 원하는 문자열을 볼 수 있습니다. 나는 new_soup의 HTML을 렌더링 할 때

, 내가 얻을 : -

‎ (239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)

는 결과 HTML을보고, 나는 여분의 문자 태그로에 추가 된 것을 볼 수 있습니다.

나는 그들이 어디에서 오는지 모르겠지만, 추측에 나도 잘못 인코딩으로 읽고있다, 또는 잘못된 인코딩으로 쓰기는

어떤 제안을 soomewhere?

+1

당신은 BeautifulSoup로 문서를 보면 먹고 싶어,보다 구체적으로 [ "인코딩"] (HTTP ://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings), [ "출력 인코딩"] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-encoding). – iljau

+0

완벽. 나는'utf-8'로 인코딩하고 있었고'latin-1'이었을 겁니다. –

답변

1

주석의 iljau에게 감사드립니다.

제 기록을 준비하는 과정에서 나는 잘못된 인코딩으로 prettified했습니다.

이 되었습니까 : -

html = soup.prettify("utf-8")

그것이하게 고정 : -

html = soup.prettify("latin-1")