Python의 아름다운 스프로 HTML을 근근이 살아가는 기본 사항을 알고 있습니다. 그러나 this soccer statistics 페이지는 플레이어가 재생 한 분에 데이터를 얻기 위해 AJAX 호출을합니다. (나는 방화 광을 사용하여 네트워크 호출을 확인했다).Python을 사용하여 AJAX로 웹 페이지 긁기
내 질문 :이 정보를 "긁어 모으기"위해 파이썬을 사용할 수 있습니까? 내가 필요로하는 도구는 무엇이며, HTML을 넘어서 무엇을 알아야할까요? (저는 현재 JavaScript와 AJAX를 읽고 있습니다).
나는이 아닌 특정 질문에 대해 사과하지만 난하거나 존재하지 않을 수 있습니다 도구에 대해 Google에 방법을 모르겠어요.
업데이트 : 몇 일 후 Selenium
을 사용하여 파이썬에서 PhantomJS
과 함께 해결책을 찾았습니다. 기본적으로 Selenium
을 사용하여 각 링크로 이동하여 페이지를로드 할 때까지 기다렸다가 정보를 긁어 냈습니다. PhantomJS
은 Selenium
의 헤드리스 웹 드라이버로 사용됩니다. 모드 족이를 닫으려는 이유
은 이해하지만, 조언 사람들이 올바른 방향으로 나를 시작부터 나를 여기에 매우 도움이되었다했다. 내 질문은 어떤 툴이 가장 좋은지에 대한 것이 아니라 파이썬에서 어떻게 할 수 있는지에 관한 것입니다.
[Selenium] (https://pypi.python.org/pypi/selenium)은 다른 선택입니다. – thirtydot
언급 한 내용을 들었습니다. 그러나 Selenium은 Python에 있으며, 아래의 포스터에서는 Python이 올바른 도구가 아니라고 말합니다 ...? – Heisenberg
PhantomJS와 Serenium 모두 좋은 선택이며 문제는 두 가지 중 하나를 사용하여 쉽게 해결할 수 있습니다. Anurag Uniyal은 HTML 만 구문 분석하고 JavaScript를 실행할 수없는 Beautiful Soup 대신 실제 브라우저를 활용하는 것을 사용해야한다는 것을 의미했습니다. – thirtydot