이것은 웹 스크래핑에 대한 나의 첫 번째 시도입니다. 레이몬드 제임스 (Raymond James)의 웹 사이트에서 전화 번호를 다듬기 위해 아름다운 스프를 사용하려고합니다. 예를 들어 http://www.raymondjames.com/office_locator_display.asp?addressline=90210파이썬과 아름다운 스프를 사용하여 프레임에서 정보를 긁는 방법
내가 BeautifulSoup를 사용할 때마다 HTML에서 적절한 정보를 찾을 수 없습니다.
import urllib2
from bs4 import BeautifulSoup
url='http://www.raymondjames.com/office_locator_display.asp?addressline=90210'
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36')]
page_to_scrape=opener.open(url).read()
soup=BeautifulSoup(page_to_scrape.decode('utf-8','ignore'))
생성 된 출력에 필요한 정보가 없습니다. 내가 제공 한 URL이 위치 프레임을 가리 키지 않는 것 같습니다.
나는 웹 데이터로 많은 작업을하는 데 Python을 사용하지 않으므로 연락처 정보를 얻기 위해 Beautiful Soup을 '프레임'으로 보내는 방법을 모르고 있습니다.
브라우저가 페이지를로드 한 후 추가 자바 스크립트 코드가 주소 목록을로드한다고 생각합니다. 브라우저 개발자 도구를 사용하여 페이지를 분석해야합니다. 주소를 포함 할 수있는 추가 네트워크 요청을 찾고 해당 주소 * 에뮬레이트하십시오. –