2017-11-08 12 views
-1

this website에서 콘텐츠를 가져 오기 위해 Python을 사용하고 싶습니다. 페이지는 다음과 같습니다. 내가 파이썬 함께 페이지를 소스 코드를보고하거나 읽을 때이 enter image description here웹 사이트에서 콘텐츠를 가져올 수 없습니다.

모든 페이지가 동일한 같은 enter image description here

는하지만, 그것은 보인다. 아래

내 파이썬 코드 :

req=urllib.request.Request(url,headers=headers) 
response=urllib.request.urlopen(req) 
`content=response.read()` 
`print(content.get_text())` 

이 제발 도와주세요 ... 수프 = BeautifulSoup로 (컨텐츠, 'LXML')

+0

당신은 단지 HTML 응답의 부분을보고있는 것처럼 보입니다. 에서 예상 한 부분이 다운되지 않았습니까? – Matt

+0

답변을 주셔서 감사합니다! 을 던져서 검색했습니다. 요소를 검사하면 부분을 볼 수 있습니다. 소스 코드를 볼 수 없습니다. 부분을보고 내 파이썬 코드도 부분을 볼 수 없습니다. –

답변

0

이 시도 :

from bs4 import BeautifulSoup 
import requests, re 

def remove_some_special_tags(raw_html_data): 

    scripts = re.compile(r'<(script).*?</\1>(?s)') 
    css = re.compile(r'<style.*?/style>') 
    comments = re.compile(r"<!--(.|\s|\n)*?-->") 

    text = scripts.sub('', raw_html_data.lstrip("<!doctype html>")) 
    text = css.sub('', text) 
    text = comments.sub('', text) 

    return text 

url = "https://www.itslaw.com/detail?judgementId=29124888-491d-47ce-a88f-af9ccf003f7c&area=1&index=1&sortType=1&count=5369531&conditions=searchWord%2B%E5%80%9F%E8%B4%B7%2B1%2B%E5%80%9F%E8%B4%B7." 
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} 
response = requests.get(url, headers=headers) 
raw_data = str(response.content, encoding="utf-8") 

html_beauty = remove_some_special_tags(raw_data) 

soup = BeautifulSoup(html_beauty, 'lxml') 
all_text = ''.join(soup.findAll(text=True)).replace("\n\n", "\n") 


print(all_text) 

행운을 빕니다. ..

+0

감사! 그러나이 코드는 내가 원하는 컨텐트를 얻을 수 없습니다. –

관련 문제