나는 일일 거래 애그리 게이터가 다른 거래 웹 사이트의 데이터를 어떻게 스크랩하는지 궁금해하고 있었습니까? API 및 RSS 피드를 제공하지 않는 많은 거래 웹 사이트를 보았지만 여전히이 수집 자들은 데이터를 스크랩합니다. 여기 사이트가 어떤 API 또는 RSS 피드를 제공하지 않는 경우 내가일일 거래 애그리 게이터가 다른 거래 웹 사이트에서 데이터를 얻는 방법은 무엇입니까?
1
A
답변
5
를 참조하고 일부 웹 사이트입니다, 그것에서 데이터를 추출하는 것은 여전히 가능하다 "오래된 학교 정보가있는 페이지를 쿼리하고 반환 된 HTML에서 데이터를 추출하여 "방법"을 사용할 수 있습니다.
은 Python
에서 이것은 HTML에서 데이터를 추출 할 수 urllib2
또는 requests
조회 페이지 및 lxml
또는 BeautifulSoup
을 사용하여 수행 할 수 있습니다. 더 큰 프로젝트의 경우 복잡한 스파이더를 코딩하는 데 필요한 모든 것을 제공하는 scrapy
프레임 워크를 사용해보십시오.
1
LesserThan - http://lesserthan.com을 만들 때 - 대부분의 API 또는 RSS 피드가 게시되지 않은 것으로 나타났습니다. 제휴사 계정에 가입 한 후에 만 RSS 피드의 URL을 제공합니다.
관련 문제
- 1. Apache Camel - 경로상의 거래
- 2. 일일 거래 사이트 어 그리 게이터
- 3. ASP.NET 거래
- 4. 공유 거래,
- 5. 좀비 거래 란 무엇입니까?
- 6. MySQL 데이터베이스의 웹 사이트 거래
- 7. 거래 MySQL
- 8. 거래 이론
- 9. 거래 질문
- 10. 거래 SQL
- 11. WCF 거래
- 12. 좋은 C#, .net 뉴스 애그리 게이터가 있습니까?
- 13. 거래 응용 프로그램 거래 : 데이터베이스 및 대기 시간이 낮음
- 14. 페이팔 거래 후 고객 정보를 얻는 방법?
- 15. 거래 전략 Clojure
- 16. 봄 콩내 거래
- 17. 거래 테이블 코딩
- 18. 거래 유형 안전
- 19. READ_UNCOMMITTED 대 거래 없음?
- 20. 거래 및 잠금 문제
- 21. Subsonic 3 거래
- 22. Silverlight 기반의 거래 플랫폼?
- 23. 카산드라 데이터 모델과의 거래
- 24. 도쿄 폭군 거래 지원
- 25. 실제 거래 내역 처리
- 26. 메모리/성능 거래 질문?
- 27. 카산드라 - 거래 지원
- 28. 결제 거래 및 주문 테이블?
- 29. 매일 거래 웹 사이트를위한 mysql 데이터베이스 스키마 : Groupon
- 30. 신규 판매자 계좌의 페이팔 거래, 완료 및 보류 거래
사실 그들은 복잡한 웹 사이트에도이 작업을 수행합니까 ?? 나는 거기 커뮤니케이션을위한 포스트를 이용하는 몇몇 웹 사이트를 보았다 –
그렇습니다, 복잡한 웹 사이트를 위해 또한 가능하다. 더 많은 예제를 보려면 다른 사이트에서 데이터를 추출하기 위해 '치료'를 사용하는 [사이트/회사 목록] (http://dev.scrapy.org/wiki/CompaniesUsingScrapy)이 있습니다. – MatToufoutu