2014-07-11 7 views
0

크롤링하려는 사이트에 수천 개의 사용자 페이지가 포함되어 있으며 다른 사이트에서 가져 와서 출력하고 싶습니다. 예를 들어, example.com은 사용자 사진, 이름 및 제목을 나열합니다. 코드는 다음과 비슷하게 각 페이지는 약 50 사용자가 포함이미지 및 기타 데이터를 다운로드하는 Python 크롤러

<a href="/tommy"><img src="userphoto"></a> 
<h1 class="username">Tommy</h1> 
<p class="headline">President</p> 

I 크롤링하는 데 필요한 페이지를 얻으려면, 당신은 ID (100)를 통해 example.com?id=1 모든 길을 갈 것 . example.com의 각 100 페이지를 크롤링하고 사용자 사진, 이름 및 제목을 잡고 다른 사이트에서이 콘텐츠를 출력하려면 어떻게해야합니까? 도와주세요!

+1

치료를 사용하십시오. 당신이 원하는 것을하는 것은 매우 간단합니다. –

답변

0

당신은 사용하여 자신에 그것을 할 수 있습니다 :

  • for
  • requests 페이지
  • 의 요소를 얻기 위해 페이지를
  • lxml 또는 BeautifulSoup를 얻기 위해 100
  • requests 1에서 id를 얻기 위해 (다시) 또는 pyCurl으로 이미지 다운로드

또는 프레임 워크를 사용할 수 있습니다. Scrapy

두 가지 상황에서 모두 알아야합니다.

0

누군가 다른 사람이 작성한 코드를 기꺼이 사용하려면 scrapy을 시도하십시오. 그것은 꽤 완전한 기능입니다.

관련 문제