파이썬 2.7변환 HTML 소스의 콘텐츠
나는 웹 페이지의 소스 코드에서 비디오 타이틀을 얻을 수 있지만, 제목이 약간의 HTML 형식으로 인코딩되는 프로그램이 있습니다.
>>> import urllib2
>>> urllib2.unquote('£')
'£'
그래서 작동하지 않았다 ... 가 그럼 난 시도 :
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.unescape('£')
u'\xa3'
해당하지 않는 볼 수
이
내가 지금까지 시도한 것입니다 둘 중 하나를 선택하거나 조합해서 사용할 수 없습니다.나는 '£'
이 HTML 문자 엔티티 이름이라는 것을 알아 냈습니다. '\ xa3'을 찾을 수 없었습니다.
사람이 어떻게하는 방법, 파이썬에서 읽을 수있는 형식으로 HTML 콘텐츠를 변환하는 방법을 알고 있습니까?
BeautifulSoup을 확인하십시오. –