2011-01-21 9 views
6

웹 페이지에서 일부 정보를 추출하여 사용자를 위해 다시 포맷해야합니다.웹 페이지에서 HTML 구문 분석

웹 페이지가 다소 규칙적이기 때문에 HttpClient를 사용하여 HTML을 문자열로 다시 검색하고 주어진 위치에 관련 데이터로 하위 문자열을 추출합니다.

어쨌든 더 나은 방법이 있는지 궁금합니다. 아마도 HTML을 인식하는 방법 일 것입니다. 어떻게 할 건데?

건배

+0

가능한 복제본 [Java HTML Parsing] (http://stackoverflow.com/questions/238036/java-html-parsing) –

+0

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

+0

http://stackoverflow.com/questions/4614211/java-html-parsing –

답변

7

이상적인 경우 실제 HTML 파서를 사용해야합니다. 나는 안드로이드에 과거에 성공적으로 Jsoup을 사용했습니다 : 우리는 과거에이 작업을 수행 할 HttpUnit은 사용했습니다

http://jsoup.org/

1

jsoup.org는 더 좋지만 Cobra에는 CSS 기능과 CSS를 인식하는 추가 기능이 있습니다. 그것은 사용하기 쉬운 http://jericho.htmlparser.net/docs/index.html

, 프로젝트의 페이지에 매우 예를 순수 HTML (닫히지 않은 태그 등) 특가 :

3

나는 개인적으로 여리고 파서를 사용하는 것을 좋아합니다.