작은 문제가 있습니다. HTML 문서에서 제목을 읽고 싶습니다. 지금까지 작동 중이므로 문자열 결과를 얻습니다. Im은 libraray bs4 BeautifulSoup 및 urllib.request를 사용합니다.Python 스크립트로 HTML 제목을 읽으십시오.
당신은 HTML 코드는 차이가 있고이 차이가 명령 줄에서조차 볼 수있는 첫 번째 이미지에서 볼 수있는,하지만 난 제목 만합니다. 출력에서 HTML 코드를 어떻게 제거 할 수 있습니까? 편집
: 여기 당신이 찾고있는 파이썬 코드 내가
import urllib.request
from bs4 import BeautifulSoup
import codecs
htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning")
htmltext = htmlfile.read()
print(htmltext)
soup = BeautifulSoup(htmltext, 'html.parser')
print(soup)
f = codecs.open("freebook.html", "w", "utf-8")
f.write(soup.get())
f.close()
나는 당신이 어렵다 예제 코드없이
bs4 사용의 기본 사항 인 태그에서 텍스트를 추출하는 방법을 묻습니다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –