2012-10-17 2 views
0

먼저 파이썬과 기계화 된 아름다운 스프, urllib2와 같은 일부 웹 라이브러리에 대한 경험이 있다고 말하고 싶습니다.웹 페이지에서 정보를 얻기위한 생성 응용 프로그램에 대한 제안

아이디어는 웹 브라우저에서 현재보고있는 웹 페이지에서 정보를 가져올 앱을 만드는 것입니다. 그리고 그것을 저장하십시오.

예 : 수동으로 웹 사이트로 이동하여 사용자를 만듭니다. 내 앱을 실행하는 것보다 현재 웹 페이지에서 세부 정보를 얻을 수 있습니다. 사용자 이름, 이름, 성 등이 있습니다.

문제 : 내 웹 브라우저 상단에서 프로그램을 실행하는 방법을 모르겠습니다. 나는이 웹 페이지에 로그인하기 위해 단순히 scipt를 만들 수 없으며 Web-crawlers와 Web bots로부터 아주 좋은 보호를 받기 때문에 Beautiful Soup로 나머지 작업을 수행 할 수는 없습니다.

시작할 장소가 필요합니다. 그래서 주요 질문은 현재 웹 브라우저에있는 정보를 얻을 수 있다는 것입니다. 그렇다면 내 프로그램을 브라우저에서 보는 방법에 대한 제안을 듣고 싶습니까?

내가 무엇을 요구하는지 이해하지 못했거나 몇 가지 제안 사항이 있으면 사용할 수있는 라이브러리를 요청하십시오.

+0

나는 [PhantomJS] (http://phantomjs.org/)와 같은 것을 보거나 [Selenium] (http://seleniumhq.org/) 또는 [ 가짜] (http://fakeapp.com/). –

+0

PhantomJS는 매우 멋지게 보이며, 고맙습니다. – Vor

+0

PhantomJS의 문제는 머리가 없기 때문에 수동으로 많이 할 수 있다고 생각하지 않는다는 것입니다. 물론 스크립팅을하는 것이 더 쉬울 수도 있습니다. – Dougal

답변

0

가장 쉬운 방법은 현재 페이지의 HTML 내용을 파일에 저장하는 것입니다 (파일 -> 페이지 저장 또는 브라우저에있는 내용 사용). 그런 다음 Beautiful Soup/lxml.html/whatever를 실행하는 것이 가장 좋습니다. 그 파일에

내가 결코 사용한 적이 없지만 확실하지는 않지만 Selenium도 원하는대로 할 수 있습니다.

+0

이것에 대해서도 생각하고 있었지만 자동으로 수행 할 응용 프로그램을 만들고 싶습니다. 현재 웹 페이지를 브라우저 캐시에서 가져올 수 있습니까? – Vor

+0

또한 Selenium에 관해서는 로그인 부분을 수동으로 수행하고 셀레늄을 호출 한 다음 나머지 작업을 수행 할 수 있습니까? – Vor

관련 문제