웹 페이지에서 HTML 구문 분석

웹 페이지에서 일부 정보를 추출하여 사용자를 위해 다시 포맷해야합니다.웹 페이지에서 HTML 구문 분석

웹 페이지가 다소 규칙적이기 때문에 HttpClient를 사용하여 HTML을 문자열로 다시 검색하고 주어진 위치에 관련 데이터로 하위 문자열을 추출합니다.

어쨌든 더 나은 방법이 있는지 궁금합니다. 아마도 HTML을 인식하는 방법 일 것입니다. 어떻게 할 건데?

건배

2011-01-21 Mascarpone

가능한 복제본 [Java HTML Parsing] (http://stackoverflow.com/questions/238036/java-html-parsing) –

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

http://stackoverflow.com/questions/4614211/java-html-parsing –

이상적인 경우 실제 HTML 파서를 사용해야합니다. 나는 안드로이드에 과거에 성공적으로 Jsoup을 사용했습니다 : 우리는 과거에이 작업을 수행 할 HttpUnit은 사용했습니다

2011-01-21 17:00:20 Computerish

2011-01-21 17:24:44 Speck

jsoup.org는 더 좋지만 Cobra에는 CSS 기능과 CSS를 인식하는 추가 기능이 있습니다. 그것은 사용하기 쉬운 http://jericho.htmlparser.net/docs/index.html

, 프로젝트의 페이지에 매우 예를 순수 HTML (닫히지 않은 태그 등) 특가 :

2011-01-21 18:09:49 bltc

나는 개인적으로 여리고 파서를 사용하는 것을 좋아합니다.

2011-01-21 18:32:57 FolksLord

답변