2013-02-14 1 views
2

나는 BeautifulSoup를 가지고 놀고 있는데, 나는 지금까지 그것을 좋아한다.Python으로 LazyLoader를 사용하여 페이지 크롤링하기 BeautifulSoup

문제는 내가 스크랩하려고하는 사이트에 lazyloader가 있다는 것입니다. 사이트의 일부만 스크랩합니다.

진행 방법에 대한 힌트를 얻을 수 있습니까? lazyloader가 구현되고 다른 것을 매개 변수 화하는 방법을 살펴 봐야합니까?

+0

현재 웹 페이지의 콘텐츠를 어떻게 다운로드하고 있습니까? 이 질문을 통해 자바 스크립트로 페이지 스크랩에 대한 답변을 볼 수 있습니다. http://stackoverflow.com/questions/3362859/scraping-websites-with-javascript-enabled – Joe

답변

0

문제 자체가 BeautifulSoup가 아니라 페이지 자체의 역 동성이었습니다. 이 특정 시나리오의 경우.

페이지는 페이지의 일부를 반환하므로 헤더를 분석하여 그에 따라 서버에 전송해야합니다. 이것은 BeautifulSoup 문제 자체가 아닙니다.

따라서 특정 사이트에 데이터가로드되는 방식을 살펴 보는 것이 중요합니다. 항상 "전체 페이지로드, 전체 페이지 처리"패러다임이 아닙니다. 어떤 경우에는 나머지 페이지를 계속로드하기 위해 페이지의 일부를로드하고 서버에 특정 매개 변수를 보내야합니다.

관련 문제