2011-08-05 2 views
1

나는 일일 거래 애그리 게이터가 다른 거래 웹 사이트의 데이터를 어떻게 스크랩하는지 궁금해하고 있었습니까? API 및 RSS 피드를 제공하지 않는 많은 거래 웹 사이트를 보았지만 여전히이 수집 자들은 데이터를 스크랩합니다. 여기 사이트가 어떤 API 또는 RSS 피드를 제공하지 않는 경우 내가일일 거래 애그리 게이터가 다른 거래 웹 사이트에서 데이터를 얻는 방법은 무엇입니까?

http://www.thedealmap.com/

http://www.dealmandi.com/

답변

5

를 참조하고 일부 웹 사이트입니다, 그것에서 데이터를 추출하는 것은 여전히 ​​가능하다 "오래된 학교 정보가있는 페이지를 쿼리하고 반환 된 HTML에서 데이터를 추출하여 "방법"을 사용할 수 있습니다.

Python에서 이것은 HTML에서 데이터를 추출 할 수 urllib2 또는 requests 조회 페이지 및 lxml 또는 BeautifulSoup을 사용하여 수행 할 수 있습니다. 더 큰 프로젝트의 경우 복잡한 스파이더를 코딩하는 데 필요한 모든 것을 제공하는 scrapy 프레임 워크를 사용해보십시오.

+0

사실 그들은 복잡한 웹 사이트에도이 작업을 수행합니까 ?? 나는 거기 커뮤니케이션을위한 포스트를 이용하는 몇몇 웹 사이트를 보았다 –

+0

그렇습니다, 복잡한 웹 사이트를 위해 또한 가능하다. 더 많은 예제를 보려면 다른 사이트에서 데이터를 추출하기 위해 '치료'를 사용하는 [사이트/회사 목록] (http://dev.scrapy.org/wiki/CompaniesUsingScrapy)이 있습니다. – MatToufoutu

1

LesserThan - http://lesserthan.com을 만들 때 - 대부분의 API 또는 RSS 피드가 게시되지 않은 것으로 나타났습니다. 제휴사 계정에 가입 한 후에 만 ​​RSS 피드의 URL을 제공합니다.