2016-12-02 1 views
0
내가 파이썬 신문 사이트를 긁어 다양한 HTML 태그를 제거한 후 텍스트의 실제 이야기를 수집하는 데 사용하고

애드 블록 차단제()

import urllib.request 
from bs4 import BeautifulSoup 

#targetURL = 'http://indianexpress.com/article/india/mamata-banerjee-army-deployment-nh-2-in-west-bengal-military-coup-4405871' 
targetURL = "http://timesofindia.indiatimes.com/india/Congress-Twitter-hacking-Police-form-cyber-team-launch-probe/articleshow/55737598.cms" 
#targetURL = 'http://www.telegraphindia.com/1161201/jsp/nation/story_122343.jsp#.WEDzfXV948o' 

with urllib.request.urlopen(targetURL) as url: 
    html = url.read() 
soup = BeautifulSoup(html,'lxml') 

for el in soup.find_all("p"): 
    print (el.text) 
을 다음과 같이

내 간단한 코드입니다

indianexpress.com URL 또는 telegraphindia.com URL에 액세스 할 때 코드는 정상적으로 작동하며 정크 텍스트가 아닌 순수 텍스트 형식의 이야기를 듣고 있습니다.

We have noticed that you have an ad blocker enabled which restricts ads served on the site. 
Please disable to continue reading. 

어떻게이 애드 블록 차단 우회를 얻고 페이지를 검색 할 수 있습니다 다음과 같이 timesofindia.com 사이트는 애드 블록 차단이 경우가 있습니다 그러나

는, 출력은? 어떤 제안에도 감사드립니다

답변

0

추출하려는 실제 콘텐츠가 <p> 태그 안에 있지 않은 것 같습니다. 그러나 광고 차단 경고는 이러한 태그 안에 있습니다. 이 텍스트는 항상 HTML 문서의 일부이지만 광고가로드되지 않는 경우에만 사용자에게 표시됩니다.

대신 <arttextxml> 태그의 내용을 추출해보십시오.