7

웹에서 테이블을 긁어 내고 싶습니다. & nbsp; 엔티티가 그대로 유지되어 나중에 HTML로 다시 게시 할 수 있습니다. BeautifulSoup는 공간으로 변환하는 것 같습니다. 예 :아름다운 수프를 사용하여 긁어 내기   엔티티

from bs4 import BeautifulSoup 

html = "<html><body><table><tr>" 
html += "<td>&nbsp;hello&nbsp;</td>" 
html += "</tr></table></body></html>" 

soup = BeautifulSoup(html) 
table = soup.find_all('table')[0] 
row = table.find_all('tr')[0] 
cell = row.find_all('td')[0] 

print cell 

관찰 결과 :

<td> hello </td> 

필요한 결과 : BeautifulSoup로 생성자 BS4에

<td>&nbsp;hello&nbsp;</td> 

답변

5

convertEntities 매개 변수는 더 이상 지원되지 않는다. HTML 엔티티는 항상 해당 유니 코드 문자로 변환됩니다 (docs 참조).

문서에 따르면,이 같은 출력 포맷을 사용할 필요가 : 대답에 대한

print soup.find_all('td')[0].prettify(formatter="html") 
+0

감사합니다 :) –

관련 문제