2012-10-18 2 views
-1

어리석은 질문 일 수도 있지만 어떤 이유로 &은 &으로 인식되지 않습니다. API에서 텍스트를 가져오고 &&이 아닌 &으로 인쇄됩니다. UTF8을 통해 인코딩하지만 그다지 잡아 내지 않습니다.앰퍼샌드 혼란

+3

, 우리는 당신을 도울 수 있도록 :) 당신은 HTML 엔티티를 참조했습니다 –

+0

을 몇 가지 코드 (특히 인코딩 부분)을 게시, 그것은 하드 제발 어디에서 "인쇄"하고 API 호출의 결과가 정확히 무엇인지 말하십시오. – Tadeck

+3

http://stackoverflow.com/questions/2087370/decode-html-entities-in-python-string을 참조하십시오. –

답변

4

&은 앰퍼샌드의 HTML 이스케이프 시퀀스입니다. 그것은 문자 인코딩과 관련이 없습니다. 가능한 경우 브라우저에서 가져 오는 페이지를 열면 소스 코드에 표시됩니다.

1

여러분은 번역 BeautifulSoup를 사용하여 시도 할 수 HTML Entity names.

from BeautifulSoup import BeautifulStoneSoup 
BeautifulStoneSoup("&",convertEntities=BeautifulStoneSoup.ALL_ENTITIES)