웹 사이트를 크롤링하기 위해 js-crawler를 사용 중이며의 일부분 (CNL과 함께) (일부 이유로 동적으로 생성되는 URL)이 발생했습니다. 크롤러는 스크립트를 실제로 만지는 것이 아닙니다. 어떻게해야합니까? 내 node.js 크롤러 외에도 내 자신의 코드를 작성해야합니까? 이 동적 동작을 처리하는 방법을 알고있는 고급 크롤러가 있습니까?크롤링 url node.js에서 동적 링크를 얻는 방법
2
A
답변
2
대답에 내 의견을 만들기 :
클라이언트 측 자바 스크립트에 의해 생성 된 콘텐츠를 크롤링 심지어 구글이 완전히 해결했다하지 복잡한 문제이다.
실제로 할 수있는 유일한 방법은 서버에서 안전하게 샌드 박싱되는 일종의 headless 브라우저를 사용하는 것입니다.이 브라우저는 자체 스크립트를 실행하고 자체 스크립트를 생성 할 수있는 브라우저와 같은 환경에 페이지가로드되는 곳입니다 결과 DOM을 검사 할 수 있습니다.
그렇다고하더라도 사용자 상호 작용이 필요한 콘텐츠를 생성하지는 않습니다 (일부 콘텐츠를 표시하기 위해 탭을 클릭하는 것과 같음).
관련 문제
- 1. 웹 사이트 및 동적 URL 크롤링
- 2. Talend를 사용하여 동적 URL 링크를 보내는 방법
- 3. firefox addon : CSS에서 URL 링크를 얻는 방법
- 4. newbie : current_user에 대한 동적 링크를 얻는 방법?
- 5. 크롤링 된 URL 검색
- 6. node.js에서 동적 쿼리를 수행하는 방법
- 7. node.js에서 서버의 외부 IP를 얻는 방법
- 8. node.js에서 IP 주소를 얻는 방법
- 9. Node.js에서 UTF-8을 얻는 방법?
- 10. Node.js에서 마이크로 시간을 얻는 방법?
- 11. 특정 접두사가있는 크롤링 URL
- 12. URL 제목을 얻는 방법?
- 13. Scrapy 링크를 한 번만 크롤링
- 14. node.js에서 요청 URL 요청하기
- 15. 동적 링크를 만드는 방법
- 16. URL에서 HTML 링크를 얻는 방법
- 17. Nutch 1.3의 URL 다시 크롤링
- 18. Google 검색 결과에서 URL/링크를 얻는 방법 및 TMemo에서 승인했습니다
- 19. 안드로이드 - API (rottentomatoes)에서 URL/링크를 얻는 방법 JSON
- 20. Alertdialog에서 텍스트 및 클릭 가능한 URL 링크를 얻는 방법?
- 21. 동적 쿠키를 얻는 방법
- 22. 크롤링 크롤링 (스크래핑 없음)
- 23. node.js에서 서브 프로세스 작업 결과를 얻는 방법
- 24. 모든 하이퍼 링크를 얻는 방법 그러나 이미지의 링크를 무시하는 방법
- 25. 동적 데이터에 대한 최신 크롤링
- 26. 동적 페이지가있는 웹 사이트 크롤링
- 27. 버튼에 URL 링크를 연결하는 방법
- 28. SEO : 동적으로 생성 된 링크를 크롤링 할 수 있습니까?
- 29. Google 크롤링 아약스/동적 생성 콘텐츠 - SEO
- 30. URL에서 동적 페이지를 얻는 방법
클라이언트 측 자바 스크립트에서 생성 된 크롤링 콘텐츠는 Google이 완전히 해결하지 못하는 복잡한 문제입니다. 진정으로 그것을 할 수있는 유일한 방법은 페이지를 브라우저와 같은 환경에로드하여 자체 스크립트를 실행하고 자체 콘텐트를 생성 할 수있는 서버에서 헤드리스 브라우저를 사용하는 것입니다. DOM. 그렇더라도 사용자 상호 작용이 필요한 콘텐츠를 반드시 생성하지는 않습니다 (일부 콘텐츠를 표시하기 위해 탭을 클릭하는 것과 같음). – jfriend00
내가 투표 할 수 있도록 응답하라! 고맙습니다 – user1025852