2016-08-23 1 views
0

저는 jsoup 및 html을 사용하는 데있어 매우 새로운 기술입니다. 나는 Google 뉴스의 첫 페이지에있는 이야기에서 제목과 링크 (가능한 경우)를 추출하는 방법을 궁금해하고있었습니다. Titles:자바 - Jsoup를 사용하여 Google 뉴스 타이틀과 링크를 어떻게 추출합니까?

내가, 감사 당신의 도움을 주셔서 감사합니다 정말 것이다 : 코드가 실행될 때이 출력이기 때문에 나는 내 프로그램 titletext을 찾을 수 없습니다 생각하는 몇 가지 이유를 들어

org.jsoup.nodes.Document doc = null; 
       try { 
        doc = (org.jsoup.nodes.Document) Jsoup.connect("https://news.google.com/").get(); 
       } catch (IOException e1) { 
        // TODO Auto-generated catch block 
        e1.printStackTrace(); 
       } 
       Elements titles = doc.select("titletext"); 

       System.out.println("Titles: " + titles.text()); 


       //non existent 
       for (org.jsoup.nodes.Element e: titles) { 
        System.out.println("Title: " + e.text()); 
        System.out.println("Link: " + e.attr("href")); 
       } 

: 여기 내 코드입니다.

+0

try doc.select ("span.titletext"); – tonakai

+2

[RSS 피드] (https://news.google.com/news?output=rss)를 훨씬 쉽게 구문 분석 할 수있는 이유가 있습니까? –

답변

0

먼저 지금 당신이 어떤 자식 요소 (들) (등등 아이디, HREF, originalhref 등)이 요소가 H2 HTML 태그

Elements elem = html.select("h2"); 

로 시작하는 모든 노드/요소를 얻을. 여기에서 필요한 데이터를 검색해야합니다.

for(Element e: elem){ 
     System.out.println(e.select("[class=titletext]").text()); 
     System.out.println(e.select("a").attr("href")); 
    } 
관련 문제