2010-03-25 4 views

답변

2

TagSoup을 사용하여 HTML을 구문 분석 한 다음 표준 XPath 표현식을 사용하여 모든 링크와 img 태그를 가져올 수 있습니다.

+0

+10! citate : "Java로 작성된 SAX 호환 파서로 올바른 형식의 XML을 구문 분석하는 대신 HTML을 파싱하여 야생에서 찾게됩니다." – Karussell

+0

@ chiborg XML 구문 분석에 대한 완전한 의문이 있습니다. 'String'객체에 포함 된 HTML 코드를 구문 분석 한 다음 모든 상대 URL을 검색하는 방법에 대한 예제입니다. 그 다음에 절대 URL로 변환하여 String 객체에 host-name을 지정합니다. – Catfish

관련 문제