2016-10-09 2 views
-2

작은 문제가 있습니다. HTML 문서에서 제목을 읽고 싶습니다. 지금까지 작동 중이므로 문자열 결과를 얻습니다. Im은 libraray bs4 BeautifulSoup 및 urllib.request를 사용합니다.Python 스크립트로 HTML 제목을 읽으십시오.

HTML Code

당신은 HTML 코드는 차이가 있고이 차이가 명령 줄에서조차 볼 수있는 첫 번째 이미지에서 볼 수있는,하지만 난 제목 만합니다. 출력에서 ​​HTML 코드를 어떻게 제거 할 수 있습니까? 편집

Command line Output

: 여기 당신이 찾고있는 파이썬 코드 내가

import urllib.request 
from bs4 import BeautifulSoup 
import codecs 

htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning") 

htmltext = htmlfile.read() 

print(htmltext) 


soup = BeautifulSoup(htmltext, 'html.parser') 

print(soup) 

f = codecs.open("freebook.html", "w", "utf-8") 
f.write(soup.get()) 

f.close() 

나는 당신이 어렵다 예제 코드없이

+0

bs4 사용의 기본 사항 인 태그에서 텍스트를 추출하는 방법을 묻습니다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –

답변

0

줄이 코드의 도움을 바란다 사용하고있는 당신은 정확한 해결책이지만 h2.get_text(strip=true)을 사용할 수 있습니다. h2은 인쇄하고자하는 요소 h2을 가리키는 변수입니다.

get_text()에 대한 문서입니다 - 당신이 더 많은 도움이 필요하면 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text

공유 코드 및 html

+0

안녕하세요, 맞습니다. 코드를 공유하지 않았습니다. 공유 할 예정입니다. :) – Petr

0

그것은 내 당신이 변수에 H2 태그의 텍스트 내용을 이해하고있다 공백을 제거하고 싶다. 따라서 bs4에 strip=true 또는 title = title.strip()을 사용할 수 있습니다.

관련 문제