2010-02-18 3 views
2

파이썬에 대해 처음 접했고 일반적으로 코딩하기는했지만 좋은 진전을 이루었습니다.파이썬 URL 문자

API를 통해 웹에서 데이터를 가져올 수 있으며 결과는 문자열이어야합니다. "& amp;" "및"& "등의 인스턴스가 있습니다. (문자 세트를 수정하여 화면에 제대로 인쇄되도록했습니다.)

깨끗한 방법이 있다고 생각합니다. 이 문자열 및 컴퓨터 화면에 보이는 것처럼 문자를 제거합니다. 나는 urldecoding에 대한 검색을 시도했지만, 솔직히 말해서 그것이 해결책인지 알지 못합니다.

이러한 "추가" 문자를 생성하고 읽을 수있는 문자열을 만들어 주시면 대단히 감사하겠습니다.

미리 감사드립니다.

,

브록

+3

참조 http://stackoverflow.com/questions/1208916/decoding-html-entities-with-python 키워드는'HTML entity/ies'입니다. 많은 파이썬 라이브러리는 다양한 방법으로 변환하거나 처리합니다. – mjv

+0

이 데이터는 어디서 얻습니까? 아마 이들은 HTML 또는 XML 파일의 일부이며, 파싱시 파서가 자동으로 이스케이프 처리해야합니다. –

답변

2

xml.sax.saxutils.unescape (데이터 [엔티티]) Unescape가 '& A', '& LT'와 데이터의 문자열 '&된다'.

사전을 선택적인 엔터티 매개 변수로 전달하여 다른 데이터 문자열을 이스케이프 처리 할 수 ​​있습니다. 키와 값은 모두 문자열이어야합니다. 각 키는 해당 값으로 바뀝니다. 엔티티가 제공 되더라도 '& amp', '& lt'및 '& gt'는 항상 이스케이프 처리되지 않습니다.

관련 문제