2010-03-04 2 views
0

전체 HTML 페이지를 구문 분석하고 해당 페이지의 코드에서 특정 섹션을 추출하는 쉬운 방법이 있습니까? 즉, site의 RSS 피드에서이 URL을 얻었습니다. http://www.groundreport.com/Sports/Bret-Hart-says-Farewell-to-WWE_4/2918823Grails/Groovy에서 URL 내용 읽기

내가 원하는 것은 해당 링크를 구문 분석하고 해당 페이지에서 관련 이미지, 태그 및 기타 정보를 검색하는 것입니다. HTML 코드를 쉽게 파싱 할 수있는 자바 라이브러리 또는 Grails 플러그인이 있습니까?

이 작업에 접근하는 방법에 대한 제안은 높이 평가 될 것입니다.

답변

1

Tagsoup 라이브러리를 사용해 볼 수 있습니다.
예가 here입니다.

+0

유망 해 보인다. 고마워요! – firnnauriel

+0

HTML 파싱을 위해 TagSoup에 대한 좋은 경험을했습니다. +1. –

0

HTML이 올바른 형식의 XML이면 Groovy XML 구문 분석 기술을 사용할 수 있습니다. 실제로는 이것을 보장 할 수 없으므로 HTML 파서가 더 나은 옵션입니다. 과거에는 Jericho HTML parser (Java 라이브러리)을 사용했으며 결과에 매우 만족했습니다.

관련 문제