2013-08-08 4 views
1

잘 여기 .... 잘 난 비행기 텍스트를 받고 있지 않다하더라도 노력을 사이트에서 텍스트 내용을 긁어 내 코드 만 ....Python Scraping, 이것을 통해 BeautifulSoup에서 텍스트를 얻는 방법?

from bs4 import BeautifulSoup 
import mechanize 
def getArticle(url): 
     br = mechanize.Browser() 
     htmltext = br.open(url).read() 
     soup = BeautifulSoup(htmltext) 
     for tag in soup.findAll('span',{'itemprop':'articleBody'}): 
       print tag.contents 

예를 들어 내가 긁어 때 처리하는 방법 장소. 은 내가

"[U"\ 닌 소련, 그것은 고객이 지불하는 은행의이 출력 얻을 '청구서를. \ xa0Or, 적어도 하나의 힘을. "
, u는'N \ ',
, U' \ r \ n 재미있는 사례가 보로네즈에서 일어났습니다. 러시아에서는 2400 만 러시아 루블 (약 727,000 달러)에 대해 은행이 서명하고 은행이 인정한 수공예 문서에 대한 보상을 청구하고 있습니다. \ xa0 '
, u '\ n',
, u '\ r \ n Dmitry Alexeev (그의 성이', by the first Russian outlet to publish this story, u '로 변경됨)로가는 사람은 2008 년에'Tinkoff Credit Systems, u ' \ xa0 그의 사서함에 있음. 신용 카드 신청서로 계약서가 동봉되어 있었고, 미국인이 매일 여러 은행에서받은 신청서와 비슷합니다. ', 비자

일반 텍스트 만 얻는 방법은 무엇입니까?

답변

2

사용 tag.text 대신 tag.contents :

from bs4 import BeautifulSoup 
import mechanize 

url = "http://www.minyanville.com/business-news/editors-pick/articles/A-Russian-Bank-Is-Sued-for/8/7/2013/id/51205" 
br = mechanize.Browser() 
htmltext = br.open(url).read() 
soup = BeautifulSoup(htmltext) 
for tag in soup.findAll('span',{'itemprop':'articleBody'}): 
    print tag.text 
+0

잘 여전히이 같은 텍스트의 끝에서 지내는 것이 프로그래머입니다 .. 감사합니다, 어떻게 그것도 없애? 은이 사건이 "비 실시간 기술 문제"와 관련이 있다고 말한 바 있으며 법정에서 기꺼이 그 날을 기꺼이 원하고있다. 다음 청문회가 9 월에있을 예정입니다. # pagination-container {display : none;}; –

관련 문제