이 시도 :
from bs4 import BeautifulSoup
import requests, re
def remove_some_special_tags(raw_html_data):
scripts = re.compile(r'<(script).*?</\1>(?s)')
css = re.compile(r'<style.*?/style>')
comments = re.compile(r"<!--(.|\s|\n)*?-->")
text = scripts.sub('', raw_html_data.lstrip("<!doctype html>"))
text = css.sub('', text)
text = comments.sub('', text)
return text
url = "https://www.itslaw.com/detail?judgementId=29124888-491d-47ce-a88f-af9ccf003f7c&area=1&index=1&sortType=1&count=5369531&conditions=searchWord%2B%E5%80%9F%E8%B4%B7%2B1%2B%E5%80%9F%E8%B4%B7."
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers)
raw_data = str(response.content, encoding="utf-8")
html_beauty = remove_some_special_tags(raw_data)
soup = BeautifulSoup(html_beauty, 'lxml')
all_text = ''.join(soup.findAll(text=True)).replace("\n\n", "\n")
print(all_text)
행운을 빕니다. ..
당신은 단지 HTML 응답의
부분을보고있는 것처럼 보입니다. 에서 예상 한 부분이 다운되지 않았습니까? – Matt답변을 주셔서 감사합니다!
을 던져서 검색했습니다. 요소를 검사하면 부분을 볼 수 있습니다. 소스 코드를 볼 수 없습니다. 부분을보고 내 파이썬 코드도 부분을 볼 수 없습니다. –