2010-07-31 2 views
3

웹 사이트 스크래핑 (궁금한 점 등)에 대해 궁금합니다. 특히 Hype Machine 사이트의 작업을 수행하는 스크립트를 작성하고 싶습니다. 저는 실제로 소프트웨어 공학 학부 (4 학년)입니다. 그러나 웹 프로그래밍을 실제로 다루지는 않습니다. 그래서 Javascript/RESTFul API/모든 것들에 대한 나의 이해는 매우 제한적입니다. 왜냐하면 이론과 클라이언트 측 응용 프로그램에 초점을 맞추기 때문입니다. . 도움이나 지시 사항을 크게 높이 평가했습니다.과장 기계와 같은 웹 사이트를 긁는 방법은 무엇입니까?

+0

Hype Machine에는 robots.txt가 없으므로 다른 사람이 긁적 거리지 않는 것처럼 보입니다. –

+0

그게 재미 있어요 ...나는 사이트 자체를 방문하지 않고 노래를 다운로드하기 위해 직접 스크립트를 작성하는 데 궁금합니다. – Setheron

+0

블로그 게시물을 잠시 후 다시 보내 드리겠습니다. [.NET에서 웹 스크래핑] (http : //www.truewill. net/myblog/index.php/2007/12/30/web_scraping_in_net). – TrueWill

답변

4

먼저 사이트에서 일종의 구조화 된 데이터를 제공하는지 또는 HTML을 직접 구문 분석해야하는지 여부를 확인해야합니다. RSS feed of latest songs이있는 것 같습니다. 그것이 당신이 찾고있는 것이라면 거기에서 시작하는 것이 좋을 것입니다.

스크립트 언어를 사용하여 피드를 다운로드하고 구문 분석 할 수 있습니다. 나는 파이썬을 사용하지만 원할 경우 다른 스크립팅 언어를 선택할 수 있습니다. download a url in pythonparse XML in python에 대한 몇 가지 문서가 있습니다.

사이트 또는 RSS 피드를 다운로드하는 프로그램을 작성할 때주의해야 할 또 다른 사항은 스크래핑 스크립트가 실행되는 빈도입니다. 끊임없이 실행하여 새 데이터를 사용할 수있게되면 사이트에 많은로드가 걸리며 사용자를 차단할 가능성이 있습니다. 필요 이상으로 스크립트를 자주 실행하지 마십시오.

+0

원시 HTML 데이터의 스크래핑을 이해하는 것처럼 보입니다. 예를 들어 어떻게 곡을 긁어 모으는 지 궁금했습니다. 나는 그들이 플래시 플레이어를 통해 이루어 졌다고 생각한다. – Setheron

1

다음과 같은 책을 확인 할 수 있습니다 :

"Webbots, 거미, 그리고 스크린 스크레이퍼를 : 가이드를 PHP/컬 인터넷 에이전트 개발에" http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593271204

"HTTP C# 봇에 대한 조리법을 프로그래밍 " http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/dp/0977320677

"HTTP 자바 봇에 대한 조리법을 프로그래밍 " http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/dp/0977320669

0

분석해야 할 가장 중요한 것은 추출 할 정보의 종류입니다. Google과 같은 전체 웹 사이트를 추출하려면 Apache.org 또는 flaptor 솔루션의 nutch와 같은 도구를 분석하는 것이 가장 좋습니다. http://ww.hounder.org 구조화되지 않은 데이터 문서 (웹 사이트, 문서, pdf)에서 특정 영역을 추출해야하는 경우 nutch 플러그인은 특정 요구 사항에 적합합니다. nutch.apache.org

반면에 페이지의 DOM을 사용하여 규칙을 설정하는 웹 사이트의 특정 텍스트 나 클리핑 영역을 추출해야하는 경우 mozenda.com과 같은 도구와 관련이 있는지 확인해야합니다. . 이러한 도구를 사용하면 웹 사이트의 특정 정보를 스크랩하기 위해 추출 규칙을 설정할 수 있습니다. 웹 페이지를 변경하면 로봇에 오류가 발생합니다.

마지막으로, 정보 소스를 사용하여 웹 사이트를 개발하려는 경우 spinn3r.com과 같은 회사에서 정보를 구입할 수 있으므로 소비 할 준비가 된 특정 정보를 판매합니다. 인프라에 많은 돈을 절약 할 수 있습니다. 도움이 되길 바랍니다. 세 바스 챤.

0

파이썬에는 feedparser 모듈이 있습니다. feedparser 모듈은 다양한 맛의 RSS와 다양한 맛의 ATOM을 실제로 처리합니다. 바퀴를 재발견 할 이유가 없습니다.

+0

실제로 API에 대한 비밀 키를 얻기 위해 HTML을 긁어 내야했습니다.) – Setheron

관련 문제