2012-02-10 2 views
-2

나는 HTTPClient와 Jsoup를 사용하여 URL을 얻고 페이지를 탐색합니다. 단일 링크에 페이지 매김을 통해 제어되는 3 ~ 4 페이지가있는 시나리오가 있습니다. 각 번호를 제출하면 작업이 게시되고 URL이 변경되고 탐색이 완료됩니다. 메인 페이지에서이 URL을 어떻게 얻을 수 있습니까? 내 매김이 UI페이지 매김 URL을 얻는 방법

그것은 당신이 얻을하려는 페이지에 따라
<div class="pagination"> 
<div class="label">Page: </div>   
<div class="button selected" onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">1</div>   
<div class="button " onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">2</div> 
<div class="button " onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">3</div>    
<div class="button" onclick="$('.page-position', $(this).closest('form')).attr('value', 2);$(this).closest('form').submit();">Next</div> 
</div> 
+1

문서가 페이지 매김되는 방식을 알 수있는 방법이 없습니다. Downvoted. – Mikhail

답변

2

정적 HTML을 구문 분석합니다. URL은 Javascript/JQuery에 의해 생성됩니다. 그래서 당신은 Jsoup와 함께 할 수 없습니다. HtmlUnit을 사용하여 페이지를 만들고 자바 스크립트를 렌더링하면 div를 간단하게 선택할 수 있습니다.

1

에 존재하는 방법

이있다. 요즘 대부분의 웹 사이트는 매우 잘 구조화 된 URL을 가지고 있으므로 URL을 해석하는 것이 얼마나 쉬운 지 알 수 있습니다. 당신은 브라우저를 사용하는 것처럼 단순히 그것을 해 봅시다, CSS의 경로/XPath를 얻을 및 다른 한편으로 사이트가 구조화되지 않은 URL이있는 경우 http://jsoup.org/cookbook/extracting-data/dom-navigation

을 jsoup 사용하는 파이어 폭스에 불을 지르고 사용할 수 있습니다, 그 뒤로가는 것입니다 그리고 앞으로. 링크가있는 첫 페이지를 앵커로 사용한 다음 앞뒤로 이동하십시오. 파이썬에서는 mechanize를 사용하여이 작업을 수행 할 수 있습니다.