웹 사이트 스크래핑 (궁금한 점 등)에 대해 궁금합니다. 특히 Hype Machine 사이트의 작업을 수행하는 스크립트를 작성하고 싶습니다. 저는 실제로 소프트웨어 공학 학부 (4 학년)입니다. 그러나 웹 프로그래밍을 실제로 다루지는 않습니다. 그래서 Javascript/RESTFul API/모든 것들에 대한 나의 이해는 매우 제한적입니다. 왜냐하면 이론과 클라이언트 측 응용 프로그램에 초점을 맞추기 때문입니다. . 도움이나 지시 사항을 크게 높이 평가했습니다.과장 기계와 같은 웹 사이트를 긁는 방법은 무엇입니까?
답변
먼저 사이트에서 일종의 구조화 된 데이터를 제공하는지 또는 HTML을 직접 구문 분석해야하는지 여부를 확인해야합니다. RSS feed of latest songs이있는 것 같습니다. 그것이 당신이 찾고있는 것이라면 거기에서 시작하는 것이 좋을 것입니다.
스크립트 언어를 사용하여 피드를 다운로드하고 구문 분석 할 수 있습니다. 나는 파이썬을 사용하지만 원할 경우 다른 스크립팅 언어를 선택할 수 있습니다. download a url in python 및 parse XML in python에 대한 몇 가지 문서가 있습니다.
사이트 또는 RSS 피드를 다운로드하는 프로그램을 작성할 때주의해야 할 또 다른 사항은 스크래핑 스크립트가 실행되는 빈도입니다. 끊임없이 실행하여 새 데이터를 사용할 수있게되면 사이트에 많은로드가 걸리며 사용자를 차단할 가능성이 있습니다. 필요 이상으로 스크립트를 자주 실행하지 마십시오.
원시 HTML 데이터의 스크래핑을 이해하는 것처럼 보입니다. 예를 들어 어떻게 곡을 긁어 모으는 지 궁금했습니다. 나는 그들이 플래시 플레이어를 통해 이루어 졌다고 생각한다. – Setheron
다음과 같은 책을 확인 할 수 있습니다 :
"Webbots, 거미, 그리고 스크린 스크레이퍼를 : 가이드를 PHP/컬 인터넷 에이전트 개발에" http://www.amazon.com/Webbots-Spiders-Screen-Scrapers-Developing/dp/1593271204
"HTTP C# 봇에 대한 조리법을 프로그래밍 " http://www.amazon.com/HTTP-Programming-Recipes-C-Bots/dp/0977320677
"HTTP 자바 봇에 대한 조리법을 프로그래밍 " http://www.amazon.com/HTTP-Programming-Recipes-Java-Bots/dp/0977320669
분석해야 할 가장 중요한 것은 추출 할 정보의 종류입니다. Google과 같은 전체 웹 사이트를 추출하려면 Apache.org 또는 flaptor 솔루션의 nutch와 같은 도구를 분석하는 것이 가장 좋습니다. http://ww.hounder.org 구조화되지 않은 데이터 문서 (웹 사이트, 문서, pdf)에서 특정 영역을 추출해야하는 경우 nutch 플러그인은 특정 요구 사항에 적합합니다. nutch.apache.org
반면에 페이지의 DOM을 사용하여 규칙을 설정하는 웹 사이트의 특정 텍스트 나 클리핑 영역을 추출해야하는 경우 mozenda.com과 같은 도구와 관련이 있는지 확인해야합니다. . 이러한 도구를 사용하면 웹 사이트의 특정 정보를 스크랩하기 위해 추출 규칙을 설정할 수 있습니다. 웹 페이지를 변경하면 로봇에 오류가 발생합니다.
마지막으로, 정보 소스를 사용하여 웹 사이트를 개발하려는 경우 spinn3r.com과 같은 회사에서 정보를 구입할 수 있으므로 소비 할 준비가 된 특정 정보를 판매합니다. 인프라에 많은 돈을 절약 할 수 있습니다. 도움이 되길 바랍니다. 세 바스 챤.
파이썬에는 feedparser 모듈이 있습니다. feedparser 모듈은 다양한 맛의 RSS와 다양한 맛의 ATOM을 실제로 처리합니다. 바퀴를 재발견 할 이유가 없습니다.
실제로 API에 대한 비밀 키를 얻기 위해 HTML을 긁어 내야했습니다.) – Setheron
- 1. 웹 사이트를 긁는 가장 좋은 방법이나 도구는 무엇입니까?
- 2. ning과 같은 사이트를 만드는 방법은 무엇입니까?
- 3. 웹 사이트를 확장하는 방법은 무엇입니까?
- 4. Wordpress.com과 같은 다중 사용자 웹 사이트를 구현하는 방법은 무엇입니까?
- 5. askmeflash.com과 같은 웹 사이트를 구축하십시오.
- 6. 다른 형식/레이아웃의 웹 페이지를 긁는 방법은 무엇입니까?
- 7. AngelList와 같은 사이트를 만드는 방법은 무엇입니까?
- 8. 웹 사이트에서 모든 콘텐츠를 긁는 방법?
- 9. 프로그래밍 가능한 웹 사이트를 구축하는 방법은 무엇입니까?
- 10. Django 플랫폼에서 웹 사이트를 디자인하는 방법은 무엇입니까?
- 11. Quora 프로필 페이지의 '기타'부분을 긁는 방법은 무엇입니까?
- 12. axd 리소스의 내용을 긁는 방법은 무엇입니까?
- 13. ASP.NET 웹 사이트를 배포/게시하는 방법은 무엇입니까?
- 14. 웹 사이트를 방문하여 파일을 다운로드하는 방법은 무엇입니까?
- 15. AJAX 작동 웹 사이트를 만드는 방법은 무엇입니까?
- 16. 정적 웹 사이트를 현지화하는 적절한 방법은 무엇입니까
- 17. 웹 사이트를 모바일 버전으로 이식하는 방법은 무엇입니까?
- 18. Delphi Prism으로 웹 사이트를 만드는 방법은 무엇입니까?
- 19. 검토를 위해 웹 사이트를 배포하는 방법은 무엇입니까?
- 20. 파이썬으로 간단한 웹 사이트를 만드는 방법은 무엇입니까?
- 21. 프로젝터에서 웹 사이트를 작동시키는 방법은 무엇입니까?
- 22. 클래식 ASP 웹 사이트를 배포하는 방법은 무엇입니까?
- 23. 검색 엔진이 웹 사이트를 크롤링하는 방법은 무엇입니까?
- 24. 내 PHP 웹 사이트를 배포하는 방법은 무엇입니까?
- 25. 자바 스크립트 기반 웹 사이트를 웹 스크랩
- 26. 다른 웹 사이트에서 웹 사이트를 표시하는 가장 효율적인 방법은 무엇입니까?
- 27. 추론 기계와 의미 론적 추론의 차이점은 무엇입니까?
- 28. 타사를 대신하여 비밀번호로 보호 된 사이트를 긁는 것이 가장 좋은 방법은 무엇입니까?
- 29. 나는이 프로젝트에 자신을 과장 했는가?
- 30. stackexchange 홈페이지에서 "table like"데이터를 긁는 방법은 무엇입니까? (R)
Hype Machine에는 robots.txt가 없으므로 다른 사람이 긁적 거리지 않는 것처럼 보입니다. –
그게 재미 있어요 ...나는 사이트 자체를 방문하지 않고 노래를 다운로드하기 위해 직접 스크립트를 작성하는 데 궁금합니다. – Setheron
블로그 게시물을 잠시 후 다시 보내 드리겠습니다. [.NET에서 웹 스크래핑] (http : //www.truewill. net/myblog/index.php/2007/12/30/web_scraping_in_net). – TrueWill