연구를 위해 일부 웹 사이트에서 일부 콘텐츠를 긁어서보고 싶습니다. 파이썬과 웹 스크래핑을 사용하면 프로세스가 빨라지 길 바랍니다. 하나의 작은 프로젝트에서 XML을 한 형식에서 다른 형식으로 변환하기 전에 저는 파이썬과 아름다운 수프를 사용했습니다.파이썬으로 웹 사이트의 약 페이지를 긁습니다
-3
A
답변
3
추출 할 데이터의 구조가 중복되는 방식에 따라 여러 가지 도구를 사용할 수 있습니다.
- 동일한 DOM 구조에 항상 저장된 데이터를 추출하려는 경우 Scrapy이 작업을 수행 할 수 있습니다.
- 데이터가 희박하고 여러 위치에 저장되어있는 경우 BeautfulSoup4 또는 lxml 일 수 있습니다. 2012 튜토리얼 웹 스크래핑에 대한
- PyCon : 데이터가 일부 JS 코드에 의해 생성되는 경우
- , 당신은 유용한 찾을 수있는 자원의 몇은 여기 Selenium
를 보라 http://pyvideo.org/video/609/web-scraping-reliably-and-efficiently-pull-data/
- http://isbullsh.it/2012/04/Web-crawling-with-scrapy/는
- http://www.packtpub.com/article/web-scraping-with-python
- 01,230 (전체 공개, 내가 쓴)
+0
감사합니다. 매우 유용합니다. – weaveoftheride
관련 문제
- 1. 자바 스크립트와 프레임을 사용하는 웹 페이지를 긁습니다.
- 2. 파이썬으로 웹 페이지를 표시하는 방법은 무엇입니까?
- 3. YQL이 전체 웹 사이트/도메인을 긁습니다.
- 4. 기존 웹 사이트의 마스터 페이지를 만드는 지침
- 5. 내부 웹 사이트의 모든 페이지를 크롤링하려면 어떻게해야합니까?
- 6. 전체 웹 페이지를 백업하는 방법은 파이썬으로 그림을 포함합니까?
- 7. 파이썬으로 웹 페이지를 효율적으로 저장하고 액세스 할 수 있습니다.
- 8. 이 웹 페이지를 어떻게 파이썬으로 다운로드 할 수 없습니까?
- 9. - 웹 사이트의 최신보기 페이지 -
- 10. 웹 사이트의 모든 링크 목록보기
- 11. mod_rewrite를/P/약 => P = 약
- 12. PHP는 문자열에서 이미지를 긁습니다 - 어떻게?
- 13. 로그인 웹 사이트의 웹 페이지
- 14. 웹 사이트의 모바일보기
- 15. 웹 사이트를 파이썬으로 얻으십시오
- 16. 파이썬으로 웹 사이트에 업로드
- 17. 웹 사이트가 파이썬으로 업데이트해야합니다
- 18. 파이썬으로 웹/네트워크 프로그래밍
- 19. 파이썬으로 웹 스크랩
- 20. 파이썬으로 웹 사이트에 로그인
- 21. 웹 사이트의 웹캠 웹
- 22. Windows Azure 웹 사이트의 DotNetNuke
- 23. 웹 사이트의 톤 분석
- 24. 트위스트 매트릭스를 사용하여 채팅 웹 사이트의 아키텍처
- 25. 웹 사이트의 특수 텍스트
- 26. 스크립트를 사용하여 웹 사이트의 각 페이지를 열고 다운로드 하시겠습니까?
- 27. 같은 서버에있는 asp https : // 사이트의 aspx 웹 서비스/페이지를 호출하십시오.
- 28. 업로드하는 동안 내 웹 사이트의 다른 페이지를 열 수 없습니까?
- 29. 내 BlogSpot 페이지를 내 웹 사이트의 페이지로 가져 오려면
- 30. 웹 사이트의 다른 페이지를 방문하면 mp3를 자동으로 재생합니다.
여기에는 질문이 없습니다. 만약 당신이 스크레이퍼를 찾고 있다면, [scrapy] (http://scrapy.org)는 꽤 좋습니다. – Julian
여기서 질문은 어디에 있습니까? – ThirdOne
문제를 해결하는 유일한 방법은 바로 들어가서 어지럽게 시작하는 것에 동의하지 않습니다. 특히 코딩으로 인해 기술이 길어지기 쉽습니다. 당신이 제안하는 그 사이트의 결함, 비록 내가 일을 통해 배우는 것이 매우 중요하다는 데 동의하지만 연구와 이론 또한 중요합니다. 균형이 있어야합니다. 나에게 해결책을 제공 해줄 것을 요구하는 것이 아니라, 아래 답변 된 사람과 같은 조언을 해주세요. 흥미있는 링크. – weaveoftheride