자바 스크립트 웹 크롤러 프레임 워크가 있습니까?거기에 어떤 자바 스크립트 웹 크롤러 프레임 워크입니까
답변
PhantomJS을 사용해보십시오. 정확하게 크롤러는 아니지만 그 목적으로 쉽게 사용할 수 있습니다. 스크린 샷을 저장할 수있는 기능이있는 완전한 기능의 WebKit 엔진이 있습니다. 간단한 명령 줄 JS 인터프리터로 작동합니다.
서버 쪽?
시도 노드 - 크롤러는 : https://github.com/joshfire/node-crawler
후속 uri를 크롤링하지 않기 때문에이 크롤러는 고려하지 않을 것입니다. 기본적으로 URL의 소스를 다운로드하고 완료되면 콜백을 트리거합니다. 해당 페이지에 제공된 링크를 크롤링하기위한 논리를 정의하는 것은 소비자의 몫입니다. 그다지 간단하지는 않습니다. –
새로운 바로 Node.js를 위해 출시 된 프레임 워크 spider라고있다. 내부적으로 jQuery를 사용하여 웹 사이트의 HTML 페이지를 크롤링/색인화합니다. API 및 구성은 특히 jQuery를 이미 알고있는 경우에 특히 유용합니다.
var spider = require('../main');
spider()
.route('www.nytimes.com', '/pages/dining/index.html', function (window, $) {
$('a').spider();
})
.route('travel.nytimes.com', '*', function (window, $) {
$('a').spider();
if (this.fromCache) return;
var article = { title: $('nyt_headline').text(), articleBody: '', photos: [] }
article.body = ''
$('div.articleBody').each(function() {
article.body += this.outerHTML;
})
$('div#abColumn img').each(function() {
var p = $(this).attr('src');
if (p.indexOf('ADS') === -1) {
article.photos.push(p);
}
})
console.log(article);
})
.route('dinersjournal.blogs.nytimes.com', '*', function (window, $) {
var article = {title: $('h1.entry-title').text()}
console.log($('div.entry-content').html())
})
.get('http://www.nytimes.com/pages/dining/index.html')
.log('info')
;
스파이더가 작동하도록 아침을 보내면 최신 0.6.6 node.js에서 실행할 수 없습니다. – Kuroro
좋은 시작이지만 메타 리디렉션이나 문서 기본 재정의를 처리하지 못해 많은 사이트를 크롤링하지 못합니다. 하지만 그것은 노드에서 본 최고의 구현입니다. 쿠키 지원으로 다른 오픈 소스 크롤러보다 낫습니다. –
- 1. 어떤 웹 서비스 프레임 워크입니까?
- 2. 어떤 단위 테스트 프레임 워크입니까?
- 3. PHP 기반 웹 크롤러 또는 자바 기반 웹 크롤러
- 4. 어떤 자바 스크립트 프레임 워크에 익숙해 져야합니까?
- 5. 다음 링크, Scrapy 웹 크롤러 프레임 워크
- 6. 자바 CSS 크롤러
- 7. IOKit은 Mac 전용 프레임 워크입니까?
- 8. SEO 친화적 인 자바 스크립트 프레임 워크
- 9. 적대적인 웹 크롤러 식별
- 10. 크롤러 스크립트 php
- 11. jQuery와 GWT를 비교할 수있는 프레임 워크입니까?
- 12. java 웹 크롤러
- 13. 자바 스크립트 웹 프레임 워크 비교 리소스
- 14. 선택적 프레임 파괴 자바 스크립트
- 15. 웹 크롤러/스파이더가 아약스 기반 링크를 가져옵니다.
- 16. 경쟁력있는 가격을위한 웹 크롤러
- 17. 구독 기반 웹 서비스 비즈니스/사이트에 가장 적합한 프레임 워크입니까?
- 18. 거기에 자바 스크립트 스키마를 정의하는 방법입니다
- 19. 배포판 환경을 지원하는 훌륭한 테스트 프레임 워크입니까?
- 20. 웹 크롤러 구축
- 21. Web.py보다 효율적인 웹 프레임 워크입니까? 매우 Pythonic 제발!
- 22. 다른 웹 크롤러 Nutch
- 23. 어떤 자바 스크립트 저장소를 사용해야합니까?
- 24. 자바 스크립트 XSLT 프레임 워크
- 25. 자동 웹 크롤러 구축
- 26. 웹 수집기/제품 크롤러
- 27. 웹 크롤러 필요
- 28. Google Mock은 좋은 조롱 프레임 워크입니까?
- 29. ASP.Net은 스크립팅 언어 또는 프레임 워크입니까?
- 30. 자바 스크립트 CSS 프레임 워크
당신은 더 구체적 수 :
테스트 스위트에서, 여기에 뉴욕 타임즈 웹 사이트를 크롤링의 예? 자바 스크립트로 구현 된 웹 크롤러를 찾고 계십니까? 서버 측 (Node.js) 또는 클라이언트 측 (브라우저에서)? –
클라이언트 측 웹 크롤러 프레임 워크가 있습니까? 어떻게 작동할까요? – Shakakai
서버 측 자바 스크립트를 사용하여 세 개의 API를 작성했습니다. 'nodejs'는'python'처럼 쉽게 명령 줄에서 실행할 수 있습니다. 이것은 완전히 유효한 질문입니다. – slezica