2010-07-08 6 views
42

범위와 기능면에서 누군가 크롤러와 스크레이퍼를 구별 할 수 있습니까?크롤러 대 스크레이퍼

+2

해당 용어에는 정확한 정의가 없습니다. 사용 예가 있습니까? –

+0

일부 xpath 기반 규칙 (특정 하이퍼 링크를 따르십시오)을 기반으로 웹 사이트를 탐색 한 다음 일부 리프 페이지에서 데이터를 추출하는 응용 프로그램을 작성하려고합니다. 따라서 크롤링 및 스크래핑이 모두 포함됩니다. 두 단계 모두에서 가능한 최상의 도구를 찾아야합니다. – Nayn

+0

많은 플랫폼이 웹 페이지를 다운로드하고 RegExp를 적용하여 링크 또는 스크랩 된 값을 추출하는 데 완벽합니다. 당신이 아는 것을 사용하십시오. –

답변

62

크롤러는 시작 주소 (또는 시작 주소 집합)와 일부 조건 (예 : 링크 수, 무시할 파일 유형)이 있으면 웹 페이지를 가져옵니다. 출발점.

스크래퍼는 [편집 : 또는 더 일반적으로는 디스플레이 용으로 포맷 된 데이터를 다운로드 한] 페이지를 가져 와서 해당 페이지에서 데이터를 추출하여 (예 :) 데이터베이스에 저장하고 원하는대로 조작 할 수 있습니다.

결과를 사용하는 방법에 따라 스크래핑은 웹 사이트 사용에 대한 정보 및/또는 사용자 계약의 권리를 위반할 수 있습니다 (경우에 따라 크롤링이 크롤링을 위반하는 경우도 있음). 편집 : Steven Sudit이 언급 한 것처럼 크롤러가 해당 사이트를 처리하는 방법을 지정하기 위해 루트에 robots.txt이라는 파일 (URL은 http://server/robots.txt)이 포함되어 있습니다. 특히 크롤러가 해당 사이트를 처리해야하는 방법을 지정합니다. 크롤러는 방문을 시도해서는 안됩니다. 원하는 경우 크롤러 (사용자 에이전트)별로 별도로 지정할 수 있습니다.

+7

크롤러에게 크롤링하지 않을 위치를 알려주는 robots.txt 파일을 언급해야합니다. –

+0

+1을 사용하여 robots.txt 정보를 추가하십시오. –

+0

@ 스터븐 : 죄송합니다. 이름이 잘못되어 사과드립니다. –

3

크롤러는 링크를 따라 웹 서핑을합니다. 예를 들어 페이지를 색인화하는 Google 로봇이 있습니다. Scrapers는 양식에서 값을 추출하지만 반드시 웹과 관련이있는 것은 아닙니다.

+4

스크래퍼는 HTML에서 값을 추출하며 반드시 양식이 아닙니다. –

+3

스크래퍼는 스크린에서 값을 추출합니다. 반드시 HTML이 아니어야합니다. 예를 들어, 한때 스크래퍼를 사용하여 이전 메인 프레임 양식의 값을 추출했습니다. –

+4

Google에 무료 패스를 제공 할 수는 없습니다. Google은 크롤러입니다. 그렇지만 스크레이퍼도 있습니다. 검색 결과에 표시 할 메타 설명이 다른 방법은 무엇입니까?제목? 게시물의 날짜? 그들은 최고의 크롤러 및 스크레이퍼입니다. –

3

웹 크롤러는 로직에서 링크 (URL - 페이지)를 가져오고 스크래퍼는 HTML에서 값 (추출)을 가져옵니다.

많은 웹 크롤러 도구가 있습니다. Visit page 일부를 보려면 모든 XML - HTML 파서는 크롤링 된 페이지에서 데이터를 추출 (스크랩)하는 데 사용할 수 있습니다. (나는 데이터를 파싱하고 추출하기 위해 Jsoup을 추천한다.)

0

일반적으로 크롤러는 링크를 따라 수많은 페이지에 도달하지만 스크래퍼는 어떤면에서는 온라인으로 표시된 내용을 끌어와 더 깊은 링크에 도달하지 못한다.

가장 일반적인 크롤러는 귀하의 웹 사이트에있는 모든 웹 페이지에 연결하는 링크를 따라 가며 유용한 것으로 판단되면 콘텐츠의 색인을 생성하는 Google 로봇입니다 (그 이유는 robots.txt가 어떤 콘텐츠를하는지 알려주는 이유입니다). 색인 생성을 원하지 않음). 그래서 우리는 웹 사이트에서 이러한 종류의 내용을 검색 할 수 있습니다. 스크레이퍼의 목적은 개인 용도로 내용을 가져 오는 것이며 다른 사람에게 많은 영향을주지는 않습니다.

그러나 일부 자동 웹 스크래핑 도구를 사용하면 Octoparse 및 import.io와 같은 링크를 따라 웹 사이트를 크롤링 할 수 있으므로 크롤러 및 스크래퍼에 대한 명확한 차이는 없습니다. 그들은 Google 로봇과 같은 크롤러는 아니지만 웹 사이트를 자동 크롤링하여 코딩하지 않고 수많은 데이터를 얻을 수 있습니다.