nodejs에 대한 Scrapy와 같은 것이 있는지 알고 싶습니다. 간단한 페이지 다운로드를 사용하고 cheerio를 사용하여 파싱하는 것에 대해 어떻게 생각하십니까? 거기에 더 좋은 방법이있다.Nodejs 용 도구와 같은 치료 도구?
5
A
답변
1
파이썬에서 Scrapy와 같은 전체 웹 사이트를 크롤링하고 인덱싱하는 데 필요한 강력한 솔루션을 보지 못했지만 개인적으로 웹 사이트를 크롤링하기 위해 Python Scrapy를 사용합니다.
페이지에서 데이터를 스크래핑하려면 노드 j에 casperjs이 있어야합니다. 그것은 아주 멋진 해결책입니다. 아약스 웹 사이트에서도 사용할 수 있습니다. angular-js 페이지. Python Scrapy는 ajax 페이지를 구문 분석 할 수 없습니다. 한 페이지 또는 몇 페이지의 데이터를 스크랩하기 위해 CasperJs를 사용하는 것을 선호합니다.
Cheerio은 casperjs보다 실제로 빠르지 만 아약스 페이지에서는 작동하지 않으며 casperjs와 같은 코드 구조는 없습니다. 그래서 나는 cheerio 패키지를 사용할 수있을 때도 casperjs를 선호합니다.
커피 스크립트 예제 :이 모듈을 구성 할 수 없습니다
casper.start 'https://reports.something.com/login', ->
this.fill 'form',
username: params.username
password: params.password
, true
casper.thenOpen queryUrl, {method:'POST', data:queryData}, ->
this.click 'input'
casper.then ->
get = (number) =>
value = this.fetchText("tr[bgcolor= '#AFC5E4'] > td:nth-of-type(#{number})").trim()
0
그래도 대답이 필요한 경우를 대비하여 https://www.npmjs.org/package/scrapy 나는 그것을 테스트 한 적이 없지만 도움이 될 것이라고 생각합니다. 해피 스크랩
관련 문제
- 1. Windows 용 도구와 같은 도구
- 2. C++ 용 도구와 같은 virtualenv가 있습니까?
- 3. .NET 도구와 유사한 C++ 용 VS 도구?
- 4. MySQL 용 도구와 같은 도구로 액세스
- 5. NodeJS 용 명령 문자열 구문 분석 도구
- 6. XML 용 JSONLint.com과 같은 도구
- 7. 치료 용 linkextractors 실패
- 8. WireShark/Fiddler와 같은 Windows Mobile 6 용 네트워크 캡처 도구
- 9. Google 문서 도구와 같은 버전을 수정 하시겠습니까?
- 10. 안드로이드 플랫폼 용 날짜/시간 선택 도구와 같은 iOS
- 11. 김프의 연속 선택 도구와 같은 프로그램
- 12. 데이터베이스 마이그레이션을위한 Clojure와 같은 dbmaintain 도구
- 13. nodejs 버전 도구
- 14. Python 2.6 용 치료 설치
- 15. NodeJs 스트레스 테스트 도구/방법
- 16. Capistrano 또는 Fabric과 같은 자바 스크립트 프로그래머 용 도구
- 17. vs2010 용 jQuery 모바일 도구?
- 18. liquibase 및 flyway 같은 도구와 같은 스타일의 구성 속성을위한 관리 도구?
- 19. Chrome의 타임 라인과 같은 Firefox 용 도구
- 20. Spy ++와 같은 OpenGL 렌더링 도구 용 도구
- 21. 계산기와 같은 스포트라이트 도구
- 22. 효과와 같은 GPUImage 얼룩 도구
- 23. MVC3 용 사람 선택 도구
- 24. Google지도는 이미지 도구와 같습니다.
- 25. 날짜 선택 도구와 같은 더하기 및 빼기 버튼 만들기
- 26. NodeJS 용 Kdb + 드라이버
- 27. NodeJS 용 Excel 모듈
- 28. Intellij IDEA 용 XML 플러그인은 Notepad ++ 용 XML 도구와 비슷합니까?
- 29. 스니핑 도구와 같은 모든 데스크톱 작업을 일시 중지하십시오.
- 30. 콘텐츠를 치료 용 파이프 라인으로 직접 보내기
. 비즈니스 이름과 전화 번호 만 반환합니다. 나는 가능한 해결책이 Scrappy만큼 성과가 없다는 것을 발견했다. 하지만 Cheerio를 사용하면 페이지를 조작 할 수 있습니다. Jquery를 사용하는 것과 같습니다. – user2422940