2014-08-27 2 views
0

을 jsoup 사용하여 내가 같이 jsoup 사용하여 URL에 대한 HTTP 상태 코드를 얻고는 다음과 같습니다확인 HTTP 상태

Connection.Response response = null 
Document doc = Jsoup.connect(url).ignoreContentType(true).get() 
        response = Jsoup.connect(url) 
          .userAgent("Mozilla/5.0 (X11 Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21") 
          .timeout(10000) 
          .execute() 
        int statusCode = response.statusCode() 
        if (statusCode == 200) 
         urlExists = true 
        else 
         urlExists = false 

을 기본적으로, 검사 할 지정된 URL 200 상태 코드를 반환하는 경우 또는, 즉하지 않은 경우 그것의 html 페이지, 존재하지 않거나 그것의 pdf 파일, 존재하는 등등. jpg 파일은 jsoup로 파싱 할 수 없기 때문에 .jpg로 끝나는 URL에는 작동하지 않습니다. jsoup를 crawler4j와 함께 사용하고 있습니다. 모든 URL에 대해 http 상태 코드를 찾을 수있는 다른 방법이 있습니까?

답변

0

하지 그냥 내가 그 시도

int responseCode = new URL(url).openConnection().responseCode 
+0

사용할 수

CSS를 JS PDF 우편 RAR 타르 PNG GIF HTML 그러나 보여 주었다 : 내 URL은 다음 확장자로 끝나는 나도 존재하는 파일에 대한 상태 코드 404. 예 : http://www.icidigital.com/wp-content/themes/i-cubed-eu/assets-ici/images/clients/t rowe price_logo.png URL은 있지만 404가 표시됩니다. –

+2

해당 링크는 다음과 같습니다. 내가 그것을 클릭하면 404 내가 –

+0

어떻게 든 코멘트에 게시 된 링크가 다듬어 졌기 때문에. 그게 내가 무엇을 게시하지 않습니다. –