2011-08-19 4 views
1

나는 웹 사이트 (http://www.doviz.com)에서 약간의 환율을 읽을 자바 프로그램을 작성하려고 계획하고 있으며, 읽기만하는 (또는 전체를 읽고 부품을 제거하는 가장 좋은 방법은 무엇인지 궁금해하고 있었다. 필요한) 콘텐츠가 필요합니다.자바 프로그램을 통해 웹 페이지의 내용을 읽는 방법은 무엇입니까?

도움을 주시면 감사하겠습니다.

+1

[JSoup] (http://jsoup.org/)를 확인하십시오. 사용하기 쉽고 강력하며 가격이 옳습니다! –

답변

6

내 조언은 Jsoup 라이브러리

그것은

// Only one line to parse an external content 
Document doc = Jsoup.connect("http://jsoup.org").get(); 

// "Javascript-like" syntax 
Element content = doc.getElementById("content"); 
Elements links = content.getElementsByTag("a"); 
for (Element link : links) { 
    String linkHref = link.attr("href"); 
    String linkText = link.text(); 
} 

// "Jquery/Css-like" syntax 
Elements resultLinks = doc.select("h3.r > a"); 
Elements pngs = doc.select("img[src$=.png]"); 

그냥 클래스 패스에 jsoup.jar 라이브러리를 추가 CSS/JQuery와 같은 구문과 외부 콘텐츠를 구문 분석하는 것은 매우 쉽습니다을 사용하는 것입니다 즐겨 !
오픈 소스 물론 자유롭게 사용할 수 있습니다.

+0

JSoup을 테이블에 가져 주셔서 감사합니다. 위와 같은 용도로 httpclient를 사용하고 있지만 JSoup을 확실히 조사 할 것입니다. 로그인으로 보호 된 페이지를 읽을 수도 있습니까? –

+1

헤더 정보를 추가 할 수 있으므로 가능하다고 생각합니다. http://jsoup.org/cookbook/input/load-document-from-url –

+0

복잡한 탐색 (양식 게시, 리디렉션)이 필요한 경우 HttpClient는 직접 HTML 컨텐트를 Jsoup 또는 로그인 쿠키를 만들어 연결 jsoup ('Jsoup.connect ("http://example.com") .cookie ("auth", "cookies data")')에 삽입하십시오. –

1

웹 페이지의 RSS 읽기 메커니즘 (프로그래밍 방식)을 구현하고 표준 구문 분석기를 사용하여 RSS XML의 콘텐츠를 추출 할 것을 제안합니다.

관련 문제