2009-11-27 4 views
0

나는 지금까지 행운이없는 Scrapy를 사용하여이 간단한 작업을 달성하려고 애쓰는 초보자입니다. Scrapy 또는 다른 도구 (Python 사용)로이 작업을 수행하는 방법에 대한 조언을 구합니다. 고맙습니다. INITIAL_URL = www.example.com/Attorneys/List.aspx?LastName=A간단한 거미 질문

:

나는 성 A를 시작 변호사의 약력을 나열하는 페이지에서

  1. 시작하려면

  2. LastName = A에서 실제 바이오스로 연결되는 링크 :/BioLinks/

  3. 각/BioLinks /를 방문하여 각 변호사의 학교 정보를 추출하십시오.

/BioLinks/및 School 정보를 추출 할 수 있지만 초기 URL에서 바이오 페이지로 이동할 수 없습니다.

이것이 잘못된 길로 생각된다면 어떻게 목표를 달성 할 수 있을까요?

감사합니다.

답변

0

는 확실하지 나는 완전히 당신이 요구하는지 이해하지만, 어쩌면 당신은 각 바이오에 절대 URL을 얻고 해당 페이지의 소스 코드를 검색해야합니다

import urllib2 
bio_page = urllib.urlopen(bio_url).read() 

는 그 다음 정규 표현식 또는 기타를 사용합니다 변호사의 법률 학교를 파싱.

+0

네, 이걸 시도 하겠지만, 스캔하고 싶은 140k 바이오스에 대한 URL을 얻기 위해 거미가 필요하지 않습니까? 어떻게 작동할까요? – Zeynel