2017-10-30 1 views
0

경매에 실시간 가격 데이터를 표시하는 다양한 URL에서 HTML을 웹 스크래핑해야합니다. 나는 미리 확인하고 현재 작업 스크립트가있는 미리 조립 된 URL 목록을 가지고 있습니다. 문제는 처리 시간이 오래 걸리지 않는다는 것입니다 (URL 당 1.5-2 초).더 빠른 프로세스 파이썬

나는 속도를 향상시키기 위해 크롬 드라이버와 헤드리스가있는 셀레늄을 옵션으로 사용하고 있습니다. 큰 문제 (셀레늄을 사용하는 이유)는 내가 사용하고있는 사이트가 엄격한 로그인 보안 (CSRF 토큰 및 Captcha 퍼즐)을 가지고 있다는 것입니다. 라이브 가격을 표시하려면 사이트에 로그인해야합니다.

로그인을 시도해보고 싶지는 않습니다. 대신, 내가하고있는 일은 수동으로 한 번 로그인하고 쿠키를 저장하는 헤드 크롬 창을로드하는 것입니다. 다양한 헤드없는 크롬 창을 시작하고 쿠키를로드하므로 이미 로그인되어 있으며 내 비즈니스 웹 스크래핑에 대해 설명합니다. 이것은 작동하지만, 나는 urllib 또는 헤드리스 브라우저 대신 크롬을 사용하지 않고 구현하고 싶습니다. (더 빨라질 것 같은 느낌입니다.)

수동으로 로그인하고 쿠키를 다른 헤드리스 브라우저에로드하는 방법이 있다면 이상적입니다.

감사합니다.

답변

0

정상적인 scarping을 찾고 있다면 Beautifulsoup 라이브러리와 같은 것으로 갈 수 있습니다. 그렇지 않으면 scrapy 프레임 워크로 이동할 수 있습니다. 그러나 내가 이해하는 것으로부터, Beautifulsoup는 귀하의 요구 사항을 만족시킬 것입니다.

+0

고맙지 만 나는 그렇게 생각하지 않는다. 나는 headed 브라우저를 사용하여 수동으로 로그인해야한다. – JCodder