2014-03-07 3 views
0

사용자가 임의의 웹 페이지를 입력 할 수있게 해주는 간단한 Java 웹 크롤러를 작성하여 페이지를 검색하고 링크를 문자열로 추출합니다. Jsoup와 같은 패키지를 사용하지 않습니다. 내 질문은 상대 URL과 절대 URL이 아닌 절대 URL 만 인쇄하는 방법입니다.절대 URL 만 인쇄

답변

1

src 또는 href 속성을 검사하여 절대, 상대 또는 프로토콜 기준 (//stackoverflow.com/file)인지 확인합니다. 페이지의 URL을 구문 분석하십시오. 태그가 프로토콜 기준 인 경우, 구문 분석 된 페이지 URL의 프로토콜을 사용하고 속성의 내용을 추가하십시오. 상대 URL 인 경우 원래 URL에서 쿼리 문자열과 조각 IF를 제거하고 상대 부분을 "추가"합니다. 상대 URL은 /foo, foo, foo/bar 또는 ./../../bar/../foo과 같을 수 있으므로 인쇄하기 전에 경로 통과를 해결하는 것이 좋습니다.

편집 :

URLCommons URL Builder를 살펴 보자. 둘 다 도움이 될거야.

+0

정말 고마워요, 정말 고마워요! – Gio