2010-12-14 5 views
0

내가, 웹 페이지에서 모든 링크를 검색하고 싶지만 자바 스크립트 웹 페이지 사용 및 각 페이지가 난 다음 페이지로 이동하고 읽을 수있는 방법을 링크자바 웹 페이지 리더

의 수를 포함하는 자사의 자바 프로그램에 포함

+0

웹 (수천/수백만 사이트)을 크롤링하거나 소수의 사이트를 크롤링해야합니까? – Joel

+0

덕분에 모든 첫 페이지의 링크를 읽었지만 동일한 URL을 가지고 있기 때문에 다음 페이지의 링크를 얻으려면 아이디어가 필요합니다 – asas

답변

1

이 정보는 Javascript가 설치된 페이지에서 가져 오는 것은 쉬운 일이 아닐 수 있습니다. 프로그램은 전체 페이지를 해석하고 JS가 수행중인 작업을 이해해야합니다. 이것을하는 모든 웹 스파이더는 아닙니다.

대부분의 최신 JS 라이브러리 (jquery 등)는 대부분 HTML 요소의 CSS와 속성을 조작합니다. 먼저 HTML 소스 및 JS에서 "플랫"HTML을 생성 한 다음 플랫 HTML 코드에 대해 클래식 웹 스파이더를 실행해야합니다.

(예 : FF webdeveloper 플러그인을 사용하면 모든 JS가 완료되면 페이지의 원래 소스 코드와 생성 된 코드를 볼 수 있습니다.)

+0

동의. 많은 JS 무거운 사이트에서이 작업을 올바르게 수행하는 유일한 방법은 '헤드리스 브라우저'를 통해 페이지를 렌더링하는 것입니다. – Joel

1

찾고있는 것은 Web Spider engine입니다. 오픈 소스 웹 스파이더 엔진이 많이 있습니다. 예를 들어 http://j-spider.sourceforge.net/을 확인하십시오.

+0

동적 JS 링크를 추출합니까? – Joel

+0

@Joel, 동적 JS 링크가 확실하지 않습니까? 간단한 설명을 해줄 수 있니? – ukanth

+0

나는 OP가 동적으로 생성 된 (JS) 링크를 사용하여 사이트를 크롤링하려고한다는 인상을 받았습니다. – Joel