HTML 스크래핑을 위해 BeautifulSoup을 권하고 싶습니다. 또한과 같이 해당 유니 코드 문자를 HTML 엔티티로 변환하도록 지시해야합니다 표준 codecs 모듈은 당신이 할 수 있도록 이것에 대한 코덱을 포함하는 경우
>>> from BeautifulSoup import BeautifulSoup
>>> html = "<html>ÄÄRITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!
은 (그것은 좋은 것
"some_string".decode('html_entities')
하지만 불행히도 그렇지 않습니다)
편집이 :! 또 다른 해결책 : 파이썬 개발자 프레드릭 룬트 (Fredrik Lundh) (다른 것들 사이 elementtree의 저자) 진수, 진수 및 명명 된 개체와 함께 작동 자신의 웹 사이트에 a function to unsecape HTML entities있다 (BeautifulSoup로 것 16 진수로는 작동하지 않습니다.)