HTTP 응답을 필터링하는 방법은 무엇입니까?

URL에서 데이터를 가져 오는 HTTP Get 요청 방법을 작성하는 방법을 배웠지 만 웹 페이지의 링크 목록 만 제공하도록 응답을 필터링하고 싶습니다. HTML은 다음과 같은 텍스트가 포함 된 경우HTTP 응답을 필터링하는 방법은 무엇입니까?

예를 들어, : 다음

<link href="http://www.thompsons.co.uk">

그것을 밖으로 인쇄해야합니다 :

http://www.thompsons.co.uk

당신은 완전히 전체 데이터를 읽을

출처

2012-09-06 Princeps Tairu

당신은 jsoup 사용할 수 있습니다 :이 질문은 대안의 수 있습니다

http://jsoup.org/cookbook/extracting-data/attributes-text-html

출처

2012-09-06 12:55:19

은 다음 정규 표현식으로 구문 분석 링크를 추출합니다. 더 많은 것을 읽으십시오 : http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/

출처

2012-09-06 12:18:45 Endy

Ermm ... 사람이 토니 Poney있는을 언급 했느냐를 ??? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –

사례에 따라 다릅니다. 특정 소스의 링크 및/또는 기타 내용을 구문 분석 할 때 regexp를 사용했습니다. 사례가 일반 링크를 구문 분석하는 것이라면 다른 접근 방식이 더 좋습니다. – Endy

HTML을 "분석"하기 위해 regexes를 사용하지 말 것을 강력히 권한다. 처리중인 웹 페이지의 형식을 제어 할 수있는 권한이 없으면 정규식을 기반으로하는 솔루션이 취약하고 버그가있을 수 있습니다.

대신 허용되는 HTML 구문 분석기를 사용하십시오. HTML/XML Parser for Java

출처

2012-09-06 12:24:03

HTTP 응답을 필터링하는 방법은 무엇입니까?

답변

관련 문제