2011-04-06 7 views
9

온라인 카탈로그에서 날마다 가격을 모니터링하려고합니다. 사이트에서 HTTPS를 사용하고 javascript로 카탈로그 페이지를 생성합니다. 사이트와 어떻게 인터페이스하여 필요한 페이지를 생성합니까?HTTPS javascript 웹 페이지를 긁는 방법

HTML을 쉽게 액세스 할 수있는 다른 사이트에서이 작업을 수행했습니다. 생성 된 HTML을 구문 분석하는 데 문제가 없습니다.

저는 파이썬과 자바 만 알고 있습니다.

미리 감사드립니다.

답변

9

코드로 완벽하게 제어 할 수있는 헤드없는 Java 브라우저 인 HTMLUnit을 살펴보십시오. 간단한 예가 여기에 표시됩니다. http://htmlunit.sourceforge.net/gettingStarted.html

(의무적 인 경고 : 사이트 스크래핑으로 인해 ToS가 깨 졌을 수 있으며 소송을 제기 할 수도 있음, 시작하기 전에 허용 할 수 있는지 확인)

0

자바 스크립트가 인터페이스하는 웹 API를 만든 경우 HTML 경로로 이동하지 않고 직접 긁어 낼 수 있습니다.

다른 사람들이 난독 화했거나 다른 이유로 사용할 수없는 옵션이있는 경우 기본적으로 웹 브라우저를 통해 JavaScript를 평가 한 다음 브라우저의 DOM을 스크랩해야합니다. 브라우저 플러그인을 작성 하시겠습니까?

1

저는 웹킷을 사용하여 자바 스크립트 콘텐츠를 긁는 데 필요한 파이썬 바인딩을 사용합니다. See here for example.

관련 문제