내가, 웹 페이지에서 모든 링크를 검색하고 싶지만 자바 스크립트 웹 페이지 사용 및 각 페이지가 난 다음 페이지로 이동하고 읽을 수있는 방법을 링크자바 웹 페이지 리더
의 수를 포함하는 자사의 자바 프로그램에 포함
내가, 웹 페이지에서 모든 링크를 검색하고 싶지만 자바 스크립트 웹 페이지 사용 및 각 페이지가 난 다음 페이지로 이동하고 읽을 수있는 방법을 링크자바 웹 페이지 리더
의 수를 포함하는 자사의 자바 프로그램에 포함
이 정보는 Javascript가 설치된 페이지에서 가져 오는 것은 쉬운 일이 아닐 수 있습니다. 프로그램은 전체 페이지를 해석하고 JS가 수행중인 작업을 이해해야합니다. 이것을하는 모든 웹 스파이더는 아닙니다.
대부분의 최신 JS 라이브러리 (jquery 등)는 대부분 HTML 요소의 CSS와 속성을 조작합니다. 먼저 HTML 소스 및 JS에서 "플랫"HTML을 생성 한 다음 플랫 HTML 코드에 대해 클래식 웹 스파이더를 실행해야합니다.
(예 : FF webdeveloper 플러그인을 사용하면 모든 JS가 완료되면 페이지의 원래 소스 코드와 생성 된 코드를 볼 수 있습니다.)
동의. 많은 JS 무거운 사이트에서이 작업을 올바르게 수행하는 유일한 방법은 '헤드리스 브라우저'를 통해 페이지를 렌더링하는 것입니다. – Joel
찾고있는 것은 Web Spider engine
입니다. 오픈 소스 웹 스파이더 엔진이 많이 있습니다. 예를 들어 http://j-spider.sourceforge.net/을 확인하십시오.
웹 (수천/수백만 사이트)을 크롤링하거나 소수의 사이트를 크롤링해야합니까? – Joel
덕분에 모든 첫 페이지의 링크를 읽었지만 동일한 URL을 가지고 있기 때문에 다음 페이지의 링크를 얻으려면 아이디어가 필요합니다 – asas