내 응용 프로그램에서 웹 사이트를 구문 분석하고 ir에서 데이터를 데이터베이스로 저장해야합니다. HttpClient를 사용하여 페이지 내용을 가져 왔습니다. 내 코드는 다음과 같습니다 :잘못된 Java HttpClient 응답 스트림
HttpClient client = new DefaultHttpClient();
System.out.println(doc.getUrl());
HttpGet contentGet= new HttpGet(siteUrl + personUrl);
HttpResponse response = client.execute(contentGet);
String html = convertStreamToString(response.getEntity().getContent());
/*
parse the page
*/
/***********************************************************************/
public static String convertStreamToString(InputStream is) throws Exception {
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
StringBuilder sb = new StringBuilder();
String line = null;
while ((line = reader.readLine()) != null) {
sb.append(line + "\n");
}
is.close();
return sb.toString();
}
루프에서이 작업을하고 있습니다 - 일부 페이지의 내용을 얻으려고합니다 (구조는 동일합니다). 때로는 잘 작동하지만 불행하게도, 많은 경우에 내 대답이 liek 유사한 쓰레기의 순서입니다 : 문제입니다
�=�v7���9�Hdz$�d7/�$�st��؎I��X^�$A6t_D���!gr�����C^��[email protected]��MQ�2�d�8�]
내가 나도 몰라, 저를 도와주세요.
나는 모든 응답의 헤더를 표시했습니다. 올바른 사람을 위해,이 있습니다 : 잘못된 것들에 대한
Server : nginx/1.0.13
Date : Sat, 23 Mar 2013 21:50:31 GMT
Content-Type : text/html; charset=utf-8
Transfer-Encoding : chunked
Connection : close
Vary : Accept-Encoding
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma : no-cache
Set-Cookie : pfSC=1; path=/; domain=.profeo.pl
Set-Cookie : pfSCvp=deleted; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.profeo.pl
:
Server : nginx/1.2.4
Date : Sat, 23 Mar 2013 21:50:33 GMT
Content-Type : text/html
Transfer-Encoding : chunked
Connection : close
Set-Cookie : pfSCvp=3cff2422fd8f9b6e57e858d3883f4eaf; path=/; domain=.profeo.pl
Content-Encoding : gzip
다른 제안? 내 생각 엔이 gzip 인코딩은 여기에있는 문제이지만, 어떻게해야할까요?
나는 당신이 제안한 20 개의 유사한 페이지에 대해 EntityUtils를 사용했다. isTextual 변수의 값도 표시했습니다.20 페이지 중 2 페이지는 올바른 HTML이었고 다른 18 페이지는 다시 휴지통으로 받았습니다. 그들 모두에 대해 isTextual의 값은 참이었습니다. 예를 들어 - 페이지 http://profeo.pl/piotr-grzes가 성공적으로 수신되었고 http://profeo.pl/annais가 수신되지 않았습니다. 무엇이 잘못되었는지 전혀 모르겠다.이 페이지는 사실상 동일하다. – user1315305
첫 번째 게시물에 새로운 정보를 추가했습니다. – user1315305
정말 고마워요! 나는 그것을 이해하려고 노력하는 데 많은 시간을 보냈다. 이제는 마침내 작동한다! – user1315305