2013-09-04 2 views
1

bs4를 사용하여 화면을 스크래핑하는 데 문제가 있습니다. 다음은 내 코드입니다. 나는 웹 사이트를 분석 한python을 사용하는 제목 기반 스크린 스크랩 bs4

from bs4 import BeautifulSoup 
import urllib2 
url="http://www.99acres.com/property-in-velachery-chennai-south-ffid?" 
page=urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
properties=soup.findAll('a',{'title':'Bedroom'}) 
for eachproperty in properties: 
    print eachproperty['href']+",", eachproperty.string 

는 실제 제목 구조는 모든 앵커 링크이

1 Bedroom, Residential Apartment in Velachery 것 같습니다. 그러나 나는 이것에 대한 어떠한 결과도 얻지 못하고 오류도 없다. 그렇다면 프로그램에 단어 "Bedroom"이 들어있는 제목이있는 모든 데이터를 다 긁어 내도록 지시하려면 어떻게해야합니까?

희망 나는 그것을 분명히했다.

답변

2

만 제목에 Bedroom이 그 앵커 링크에 맞게 원하는대로 당신은 여기에 정규 표현식을 사용해야합니다이 아닌 전체 제목으로 :

import re 

properties = soup.find_all('a', title=re.compile('Bedroom')) 

이 47 일치를 제공합니다 URL에 대한