나는 beautifulsoup를 사용하여 HTML을 구문 분석하려고하지만 인라인 스크립트 태그가있는 페이지를 방문 할 때마다 beautifulsoup이 내용을 인코딩하지만 마지막에는 다시 디코딩하지 않습니다. beautifulsoup 만드는 방법 스크립트 태그의 내용을 인코딩 및 디코딩

from bs4 import BeautifulSoup 

if __name__ == '__main__': 

    htmlData = '<html> <head> <script type="text/javascript"> console.log("< < not able to write these & also these >> "); </script> </head> <body> <div> start of div </div> </body> </html>' 
    soup = BeautifulSoup(htmlData) 
    #... using BeautifulSoup ... 

내가이 출력하려면 :

    <script type="text/javascript"> 
    console.log("< < not able to write these & also these >> "); 
    start of div 

을하지만이 출력 얻을 :

    <script type="text/javascript"> 
    console.log("&lt; &lt; not able to write these &amp; also these &gt;&gt; "); 
    start of div 

당신은 이런 일을 할 수있는을

내가 사용하는 코드입니다 :

htmlCodes = (
('&', '&amp;'), 
('<', '&lt;'), 
('>', '&gt;'), 
('"', '&quot;'), 
("'", '&#39;'), 

for i in htmlCodes: 
    soup.prettify().replace(i[1], i[0]) 

당신은 lxml을 시도 할 수 있습니다 :

import lxml.html as LH 

if __name__ == '__main__': 
    htmlData = '<html> <head> <script type="text/javascript"> console.log("< < not able to write these & also these >> "); </script> </head> <body> <div> start of div </div> </body> </html>' 
    doc = LH.fromstring(htmlData) 
    print(LH.tostring(doc, pretty_print = True)) 

가 산출

<head><script type="text/javascript"> console.log("< < not able to write these & also these >> "); </script></head> 
<body> <div> start of div </div> </body> 