시도 할 때 다른 답변의 솔루션이 작동하지 않습니다. 해당 메서드를 사용해도 동일한 문자열 출력이 표시됩니다.앰퍼샌드 해시 문자열 디코드 (& # 124 & # 120 & # 97)
파이썬 2.7을 사용하여 웹 스크래핑을하려고합니다. 나는 웹 페이지를 다운로드 받았고 어떤 형태의 문자가 x
이고 120은 ASCII 코드를 나타내는 것으로 보인다. 내가 HTMLParser()
및 decode()
방법을 사용했지만 아무것도 작동하는 것 같아요. 형식으로 웹 페이지에서 가져온 내용은 해당 문자뿐입니다. 예 :
Blasterjaxx 
이 나를 인도 해주십시오 파이썬을 사용하여 이러한 문자열을 디코딩합니다. 나는 다른 해답을 읽었으나 해결책은 나를 위해 일하지 않는 것처럼 보인다.
그들은 유효한 [문자 참조]하지 (https://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references#Character_reference_overview) : 그들은 세미콜론 누락되었습니다. 일단 세미콜론이 추가되면, 그 예제는'Blasterjaxx'로 디코드합니다. –
페이지를 다운로드 할 때 인코딩을 명시 적으로 지정하십시오. – frist