2016-07-23 3 views
2

웹 사이트를 크롤링하기 위해 js-crawler를 사용 중이며의 일부분 (CNL과 함께) (일부 이유로 동적으로 생성되는 URL)이 발생했습니다. 크롤러는 스크립트를 실제로 만지는 것이 아닙니다. 어떻게해야합니까? 내 node.js 크롤러 외에도 내 자신의 코드를 작성해야합니까? 이 동적 동작을 처리하는 방법을 알고있는 고급 크롤러가 있습니까?크롤링 url node.js에서 동적 링크를 얻는 방법

+1

클라이언트 측 자바 스크립트에서 생성 된 크롤링 콘텐츠는 Google이 완전히 해결하지 못하는 복잡한 문제입니다. 진정으로 그것을 할 수있는 유일한 방법은 페이지를 브라우저와 같은 환경에로드하여 자체 스크립트를 실행하고 자체 콘텐트를 생성 할 수있는 서버에서 헤드리스 브라우저를 사용하는 것입니다. DOM. 그렇더라도 사용자 상호 작용이 필요한 콘텐츠를 반드시 생성하지는 않습니다 (일부 콘텐츠를 표시하기 위해 탭을 클릭하는 것과 같음). – jfriend00

+0

내가 투표 할 수 있도록 응답하라! 고맙습니다 – user1025852

답변

2

대답에 내 의견을 만들기 :

클라이언트 측 자바 스크립트에 의해 생성 된 콘텐츠를 크롤링 심지어 구글이 완전히 해결했다하지 복잡한 문제이다.

실제로 할 수있는 유일한 방법은 서버에서 안전하게 샌드 박싱되는 일종의 headless 브라우저를 사용하는 것입니다.이 브라우저는 자체 스크립트를 실행하고 자체 스크립트를 생성 할 수있는 브라우저와 같은 환경에 페이지가로드되는 곳입니다 결과 DOM을 검사 할 수 있습니다.

그렇다고하더라도 사용자 상호 작용이 필요한 콘텐츠를 생성하지는 않습니다 (일부 콘텐츠를 표시하기 위해 탭을 클릭하는 것과 같음).

관련 문제