나는 웹 사이트 (http://www.doviz.com)에서 약간의 환율을 읽을 자바 프로그램을 작성하려고 계획하고 있으며, 읽기만하는 (또는 전체를 읽고 부품을 제거하는 가장 좋은 방법은 무엇인지 궁금해하고 있었다. 필요한) 콘텐츠가 필요합니다.자바 프로그램을 통해 웹 페이지의 내용을 읽는 방법은 무엇입니까?
도움을 주시면 감사하겠습니다.
나는 웹 사이트 (http://www.doviz.com)에서 약간의 환율을 읽을 자바 프로그램을 작성하려고 계획하고 있으며, 읽기만하는 (또는 전체를 읽고 부품을 제거하는 가장 좋은 방법은 무엇인지 궁금해하고 있었다. 필요한) 콘텐츠가 필요합니다.자바 프로그램을 통해 웹 페이지의 내용을 읽는 방법은 무엇입니까?
도움을 주시면 감사하겠습니다.
내 조언은 Jsoup 라이브러리
그것은
// Only one line to parse an external content
Document doc = Jsoup.connect("http://jsoup.org").get();
// "Javascript-like" syntax
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
// "Jquery/Css-like" syntax
Elements resultLinks = doc.select("h3.r > a");
Elements pngs = doc.select("img[src$=.png]");
그냥 클래스 패스에 jsoup.jar 라이브러리를 추가 CSS/JQuery와 같은 구문과 외부 콘텐츠를 구문 분석하는 것은 매우 쉽습니다을 사용하는 것입니다 즐겨 !
오픈 소스 물론 자유롭게 사용할 수 있습니다.
JSoup을 테이블에 가져 주셔서 감사합니다. 위와 같은 용도로 httpclient를 사용하고 있지만 JSoup을 확실히 조사 할 것입니다. 로그인으로 보호 된 페이지를 읽을 수도 있습니까? –
헤더 정보를 추가 할 수 있으므로 가능하다고 생각합니다. http://jsoup.org/cookbook/input/load-document-from-url –
복잡한 탐색 (양식 게시, 리디렉션)이 필요한 경우 HttpClient는 직접 HTML 컨텐트를 Jsoup 또는 로그인 쿠키를 만들어 연결 jsoup ('Jsoup.connect ("http://example.com") .cookie ("auth", "cookies data")')에 삽입하십시오. –
웹 페이지의 RSS 읽기 메커니즘 (프로그래밍 방식)을 구현하고 표준 구문 분석기를 사용하여 RSS XML의 콘텐츠를 추출 할 것을 제안합니다.
[JSoup] (http://jsoup.org/)를 확인하십시오. 사용하기 쉽고 강력하며 가격이 옳습니다! –