2010-11-24 2 views
4

저는 아직 파이썬에 대한 신참이기 때문에이 질문이 제정신이 아니길 바랍니다.파이썬 스크래핑 패키지에 대한 지침

더 많은 I는 웹 스크래핑 솔루션 구글, 더 혼란 나는 (많은 나무를 조사에도 불구하고, 숲을 볼 수 없습니다 ..)가 될

내가 (프로젝트의 수를 포함에 문서를 읽어 봤는데 하지만 난 크롤링하기 위해 노력하고있어 특정 페이지 (WWW가있다

..

spynner 기계화하지만 난 정말 내가 사용하려고 시도해야하는 망치 알아낼 수 없습니다 scrapy )에 국한되지 .schooldigger.com) 그것은 ASP를 사용하고, 내가 흉내낼 수 있어야 할 자바 스크립트가있다.

이런 종류의 문제는 쉽게 해결할 수 없다는 것을 알고 있습니다. 따라서 어떤 지침도 좋아합니다. 사용할 수있는 옵션 몇 가지 일반적인 논의 외에도

(그리고 다른 프로젝트 간의 관계, 가능하면) scrapy을 사용할 때 특정 질문에

  1. 의 몇 가지있다, 정의 피할 수있는 방법이 '항목'을 구문 분석하고 처음 몇 백 페이지 정도만 다운로드 할 수 있습니까? 실제로 전체 웹 사이트를 다운로드하고 싶지는 않지만, 스크래퍼를 개발할 때 다운로드 할 페이지를보고 싶습니다.

  2. 기계화, ASP와 자바 스크립트, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. 왜 (에 꽂 turbogears 응용 프로그램 또는 브라우저 중 하나) 유틸리티의 일종을 구축하지, 내가 올린 질문을 볼 수 있지만 어떤 답변을 볼 havent 한하시기 바랍니다 사용자가 따라야 할 링크와 그래픽으로 파싱 할 항목을 선택할 수있게합니까? 내가 파싱 API를 둘러 앉아 일종의 GUI를 제안하고있다. 그런 프로젝트를 만들 기술적 지식이 있는지 모르겠지만 실제로 불가능한 이유는 모르겠다. 사실 파이썬에 대해 내가 알고있는 것을 생각해 보면 실현 가능할 것 같다. 이런 종류의 프로젝트가 직면하게 될 문제에 대한 의견이 있습니까?

  4. 가장 중요한 점은 모든 웹 크롤러가 '사이트 별'으로 구축 되었습니까? 내 코드에서 바퀴를 재발 명하는 듯하다. (하지만 프로그래밍에 능숙하지 않기 때문에 그럴 것 같다.)

  5. 누구나 완벽한 기능을 갖춘 스크레이퍼의 예가 있습니까? 문서에 많은 예제가 있습니다. (공부하고있는 IVE) 단순하지만 패키지 사용법을 설명하는 데만 초점을 맞춘 것 같습니다. 좀 더 자세한/복잡한 예제의 이점을 누릴 수 있습니다.

감사합니다. 당신이 파이썬 드라이버가 있고 스크립트 브라우저를 할 수 Selenium-RC

를 사용하여 보는 것이 최선입니다 전체 브라우저 상호 작용을위한

답변

2

에 "테스트"단지 인터넷에 어떤 사이트에 대한

관련 문제