2012-04-14 2 views
1

전체 웹에서 제품 데이터 (가격, 제목 등)를 긁는 스크래핑 도구를 개발해야합니다. 자, 나는 근근이 살아가는 경험이 있지만 그것은 하나의 웹 사이트를위한 것입니다. 나는 어떻게 전체 웹을 긁는 지 잘 모르겠습니다. 한 가지 가능한 솔루션은 google을 쿼리 한 다음 google에 나타나는 링크에서 각 웹 사이트를 긁는 것입니다. 좋은 접근 방법인가요?전체 웹에서 데이터 스크랩

각 사이트마다 데이터를 나타내는 고유 한 방식이있을 수 있으므로이 문제를 해결하는 방법에 대한 일반적인 접근 방식 만 필요합니다. 이러한 유사 콘텐츠를 모두 통합하려면 어떻게해야합니까? 모든 지침/팁?

답변

1

구글은 참조 다중 웹 사이트 가격 비교 기능이 내장되어 있습니다 : http://www.google.co.uk/shopping

당신 수 API가 아마 더 나은 선택이지만 구글로 악명이 까다 롭습니다로, 구글에게 자신의 사용자 정의 검색 API 또는 컬을 사용하여 해당 리소스를 쿼리 시도 긁거나 망가 뜨리는 스크립트가 사용된다고 생각하는 경우 IP를 잠글 것입니다. 대안으로 손으로 여러 사이트를 코딩하는 아이디어가 두려움으로 가득 차면 누군가 elses 비교 사이트에서 데이터를 가져 오는 것입니다. .