2012-10-12 2 views
4

저는 웹 사이트에 로그인 한 후 Watin을 사용하여 PDF 파일을 다운로드하는 URL 시리즈를 시작하는 watin 기반의 작은 응용 프로그램을 만들고 있습니다.C# - JavaScript를 사용하여 도메인에서 PDF 파일을 긁어내는 Watin보다 나은 방법

웹 사이트는 많은 자바 스크립트를 사용하여 pdf를 포함 된 HTML로로드합니다.

이 프로그램은 지금은 잘 작동하지만 watin가 매우 효율적으로 다운로드를 처리하지 않기 때문에 매우 느립니다 (이 파이어 폭스 다운로드 시스템을 사용하고 천천히 저장하기 전에 파일 이름을 입력합니다.

내가 더 나은이 있는지 알고 싶습니다 Ajax 사이트에 대해 동일한 지원을 제공 할 수 있지만 파일을 더 빠르고 더 빨리 다운로드 할 수있는 웹 스크래핑 프레임 워크.

나는 웹에서 셀 룰렛에 대해 알아 봤지만 파일 다운로드 관련 watin.

미리 감사드립니다. lp.

+3

원본 HTML 페이지에서 PDF 파일에 대한 링크가있는 위치/방법을 찾는 것이 더 나을 것입니다. 아마도 HtmlAgilityPack을 사용하는 것이 더 나을지도 모릅니다. 그런 식으로 페이지를 다듬을 수도 있습니다 (자바 스크립트를 잊어 버렸을지라도). 귀하가 긁어 모으고 자하는 사이트가 무엇인지 알려 주시면 도움이 될 것입니다. –

+0

[Chrome 용 Selenum 드라이버] (http://code.google.com/p/selenium/wiki/ChromeDriver)를 사용해 보셨습니까? 내 경험상 그것은 watin보다 빠릅니다. – lstern

답변

0

당신은 주 엔진으로이 두 API를 사용하여 Google 크롬 확장 프로그램을 작성할 수

https://developer.chrome.com/extensions/downloads.html 가 다운로드를 시작하려면 :

https://developer.chrome.com/extensions/webRequest.html 가 언제 어떻게 인증 할 때 다운로드를 시작하려면 알 파일의

목표를 달성하기 위해이 두 API에서 누락 된 것이 무엇이든지 사용자 지정 콘텐츠 스크립트 (확장 프로그램에서 연 페이지에 삽입되는 자바 스크립트)를 사용하여 보상 할 수 있습니다. 예를 들어 jquery에 연결합니다. 스크래핑을 초기화하는 준비 이벤트.

watin에 대한 쓰기가 브라우저에 직접 이야기하는 것 이상의 추상화 계층이기 때문에 이러한 것들은 분명 Watin보다 빠릅니다.

관련 문제