Ajax/JavaScript를 사용하는 웹 크롤러

Ajax 요청 및 javascript 실행을 통해 생성 된 결과를 얻을 수있는 크롤러를 구현하기 위해 HtmlUnit을 사용해 보았습니다. 그러나 HtmlUnit은 요구 사항을 충족시킬만큼 강력하지 않습니다. JavaScript 또는 AJax를 실행하여 생성 된 모든 렌더링 된 DOM 요소를 가져옵니다. 그리고 나서 pywebkitgtk와 pyQtwebkit을 사용하려고했지만 동적 DOM 요소가 일부 생성되었습니다. 그러나 안정적으로 작동하지 않으며 해결할 생각이 없습니다. 누군가 셀레늄을 사용하여 언급 한 것 같습니다. 아무도 Ajax 크롤러를 구현하기위한 제안을 할 수 있습니까? 많은 감사합니다!Ajax/JavaScript를 사용하는 웹 크롤러

출처

2013-08-21 Joey

일반적으로 필자는 실제 브라우저에서 Ajax 요청 및 비동기 처리기를 수행하기 위해 JavaScript 런타임이 필요하다는 것을 이해하고 있습니다. [selenium] (https://code.google.com/p/selenium/) 방식으로 투표합니다. 스크립트 방식으로 실제 브라우저를 운영 할 수 있기 때문에 웹 크롤러 시나리오와 스크린 샷과 같은 추가 기능을 완벽하게 처리 할 수 있습니다. – shawnzhu

답장을 보내 주셔서 감사합니다. 알았어, 나는 셀레늄을 사용하려고 노력할거야. 희망이 작동합니다! :디 – Joey

PhantomJS이 문제의 좋은 해결책 일 수 있습니다. 또한 일부 크롤러 API를 사용할 수도 있습니다. Unicrawler,이를 단순화합니다. 희망이 작동합니다.

출처

2015-01-07 10:40:40 bestmike007

Ajax/JavaScript를 사용하는 웹 크롤러

답변

관련 문제