2012-08-11 2 views
0

요즘 많은 웹 사이트에는 ajax에 의해로드 된 일부 콘텐츠 (예 : 일부 동영상 웹 사이트의 댓글)가 포함되어 있습니다. 일반적으로 우리는 이러한 데이터를 크롤링 할 수 없으며 우리가 얻는 것은 단지 일부 소스 코드입니다. 여기에 질문이 있습니다. HTML 응답을 얻은 후 javascript 코드를 실행하고 원하는 마지막 페이지로 이동하면 어떤 방법으로 실행할 수 있습니까?아약스에 의해로드 된 크롤링 콘텐츠

HtmlUnit에는 백그라운드 j를 실행할 수있는 기능이 있지만 아직 많은 버그와 오류가 있습니다. 다른 도구로 도울 수 있습니까?

일부 사람들은 아약스 요청 URL을 크롤링하고 해당 매개 변수를 분석 한 다음 요청을 다시 보내서 데이터를 얻을 수 있다고 말합니다. 내가 위에서 언급 한 방식대로 일을 할 수 없다면, 아약스 URL을 추출하고 올바른 형식으로 요청을 보내는 방법을 누군가에게 말해 줄 수 있습니까? 언어가 자바 인 경우 그런데

은, 그것은 가장

+0

브라우저를 수정하고 브라우저에 추가 기능을 작성하여 작업을 수행하십시오. 어려운 방법입니다 ... – nhahtdh

+0

최종 돔 트리를 얻기 위해 웹킷 코어를 사용하는 것이 기술적으로 가능할 수도 있지만 너무 어렵습니다. = 다른 해결책이 있습니까? – firstprayer

+0

나는 그렇게 생각한다. [selenium] (http://docs.seleniumhq.org/)을 사용할 수 있습니까? –

답변

0

예, Netwoof 쉽게 Ajax를 크롤링 할 수있을 것이다. API 및 봇 빌더를 사용하면 코드 라인없이 작업을 수행 할 수 있습니다.

0

HTTP에 대한 좋은 점은 자바가 필요 없다는 것입니다. AJAX 디버깅을위한 내 goto 도구는 크롬 확장 Postman입니다. 먼저 크롬 디버거에서 요청을보고 현저한 비트 (URL 또는 인코딩 된 매개 변수 등)를 확인하는 것으로 시작합니다.

그런 다음 탭을 열고 우편 발송자가있는 서버에서 요청을 실행하는 것처럼 간단 할 수 있습니다. 동일한 브라우저 컨텍스트의 모든 쿠키 (인증 등)는 모두 함께 제공됩니다.

관련 문제