2016-07-09 2 views
0

Java의 구문 분석 된 웹 페이지에서 HTTP 헤더를 제거해야합니다.Java에서 CURL 응답에서 HTTP 헤더를 제거하는 방법

HTTP/1.1 404 Not Found 
    Date: Wed, 28 Oct 2009 14:10:05 GMT 
    Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8i DAV/2 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 
    Last-Modified: Tue, 02 Jun 2009 17:40:52 GMT 
    ETag: "18ac11-d16-46b610b465100" 
    Accept-Ranges: bytes 
    Content-Length: 3350 
    Connection: close 
    Content-Type: text/html 
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"> 
<head profile="http://gmpg.org/xfn/11"> 
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

위에서 설명한 것처럼 처음 몇 줄은 http 헤더입니다. 나는 파싱 된 페이지를 처리하기 위해 그것들을 제거해야하지만 헤더의 길이와 내용이 다양하기 때문에 어떻게해야하는지 잘 모르겠습니다.

아무도 도와 주실 수 없습니까?

+0

힌트 : HTTP 헤더가'로 끝나는 \ 연구 \ 없음 \ 연구 \ – tkausl

+0

n'은 데이터를 읽기 위해 CURL을 사용해야합니까? –

+0

고마워.하지만 내용이 그것들을 가질 수도 있기 때문에 \ r \ n \ r \ n으로 문자열 끝을 제거 할 수는 없다. regex를 사용하는 동안 일부 내용을 잃을 위험을 피할 수 있습니까? –

답변

0

간단히 예를 들어 색인을 얻을 수 있습니다. <html 및이 문자열의 하위 문자열.

text.substring(text.indexOf("<html")) 
+0

웹 페이지에서는 true이지만 구문 분석 된 내용 중 일부는 이미지 (원시 바이트)이며 html 태그가 없습니다. 내가 처음 \ r \ n \ r \ n을 파싱하여 그것을 할 수 있었다. –

관련 문제