2012-11-15 2 views
0

저는 파이썬을 처음 사용하고 자문을 구합니다. php/java/ajax에 의해 생성 된 포럼 페이지의 내용을 가져와야합니다. 소스 코드에는 php/java/ajax에 의해 페이지에 추가 된 모든 요소가 포함되어 있습니다. 페이지의 완전한 소스 코드를 읽을 수 있습니까? urlopen()은 원시 소스 코드만을 제공합니다.파이썬을 사용하여 포럼 페이지의 내용을 얻는 방법

+0

에 있습니다. 나는 그가 밑줄 친 PHP 코드가 아닌 JS/AJAX 이후에 사이트의 HTML 코드를 의미한다고 생각합니다. – Andreas

+0

예, 맞습니다. 일부 JS/AJAX 뒤에 HTML 코드가 있습니다. – user1826398

+0

당신 말이 맞아요. 내 의견을 삭제했습니다. 그들은 유효하지 않습니다 ... –

답변

2

qt4 라이브러리 세트에는 웹킷 엔진이 포함되어 있습니다. 즉, 먼저 페이지를 렌더링 한 다음 생성 된 HTML을 구문 분석 할 수 있습니다. 내가 말할 수있는 한, Google Project Hosting에 프로젝트가 있습니다.

그리고 Qt4만으로이 작업을 수행 한 또 다른 샘플은 link입니다. 의견을 확인하기 위해 모든 Ajax 콘텐츠가로드되었는지 확인하는 방법에 대해 설명합니다.

+1

나는 그 해결책을 좋아한다. 우리 야간 검사에도 좋습니다. 물론 qt는 간단한 솔루션이 아닙니다 ... 중요한 AJAX 호출을 수행하는 것이 더 빠를 것이라고 생각합니다. 그러나 그가 HTML 전체를 필요로한다면 이것은 정말 좋은 해결책입니다. – Andreas

+0

가볍지 않다는 것을 알고 있습니다. 그러나 그것을 지적하는 것이 좋습니다. :-) –

0

Selenium은 작업에 적합합니다. 브라우저 자동화를위한 여러 언어 (원인 including Python)의 유용한 라이브러리입니다.

+0

댓글과 유용한 링크를 위해 모두에게 많은 감사를드립니다 !!! 지금 공부할 정보가 많습니다. !!!! – user1826398

관련 문제