2013-10-24 3 views
1

주어진 URL에 대한 기사의 텍스트를 추출하고 싶습니다.URL에서 기사 텍스트 추출

할 수있는 라이브러리 또는 기존 코드가 있는지 알고 계십니까? http://fr.news.yahoo.com/france-foot-pro-vote-gr%C3%A8ve-fin-novembre-contre-125358890.html

감사

감사

당신은 JTomatoSoup 그것의 사용을 사용할 필요가
+2

http://stackoverflow.com/questions/3036638/how-to-extract-web-page-textual-content-in-java –

+0

그냥 어떤 사람들을 위해 시간을 절약합니다. com/milosmns/goose - Android 용 거위는 텍스트 및 기타 정보를 추출합니다. 자세한 내용은 개발자 페이지를 참조하십시오. – milosmns

답변

1

은 다음과 같습니다 :

스크랩하고 URL, 파일에서 HTML을 구문 분석 여기

는 URL의 예입니다 또는 문자열
DOM 통과 또는 CSS 선택기를 사용하여 데이터를 찾고 추출하십시오
이 사이트는 간단한 GET 예를 시작했지만 여기에있다 XSS는
출력 깔끔한 HTML

공격 방지하기 위해, 속성의 HTML 요소를 조작하고, 안전한 화이트리스트에 대한 텍스트
깨끗한 사용자가 제출 한 콘텐츠 Mykong에서 SSCCE입니다 :

import java.io.IOException; 

import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 

public class HTMLParserExample1 { 

    public static void main(String[] args) { 

    Document doc; 
    try { 

     // need http protocol 
     doc = Jsoup.connect("http://google.com").get(); 

     // get page title 
     String title = doc.title(); 
     System.out.println("title : " + title); 

     // get all links 
     Elements links = doc.select("a[href]"); 
     for (Element link : links) { 

      // get the value from href attribute 
      System.out.println("\nlink : " + link.attr("href")); 
      System.out.println("text : " + link.text()); 

     } 

    } catch (IOException e) { 
     e.printStackTrace(); 
    } 

    } 

} 

웹 사이트 : http://jsoup.org/

0

I 특히 Apache HTTPClient 라이브러리를 사용하는 것과 같습니다. HTTP 요청을 매우 쉽게 생성하고 필요한 경우 결과를 구문 분석 할 수 있습니다. 다음은 URL을 사용하는 매우 뼈없는 예제입니다 (구문 분석은하지 않음). // GitHub의 : HTTPS -

import java.io.IOException; 

import org.apache.http.HttpHost; 
import org.apache.http.HttpResponse; 
import org.apache.http.ParseException; 
import org.apache.http.client.methods.HttpGet; 
import org.apache.http.conn.params.ConnRoutePNames; 
import org.apache.http.impl.client.DefaultHttpClient; 
import org.apache.http.util.EntityUtils; 


public class Test { 

    public static void main(String[] args) throws ParseException, IOException {  
     DefaultHttpClient httpclient = new DefaultHttpClient();  

     HttpGet httpget = new HttpGet("http://fr.news.yahoo.com/france-foot-pro-vote-gr%C3%A8ve-fin-novembre-contre-125358890.html"); 
     HttpResponse response = httpclient.execute(httpget); 
     String responseText = EntityUtils.toString(response.getEntity()); 
     EntityUtils.consumeQuietly(response.getEntity()); 

     System.out.println(responseText); 
    } 

} 
+0

하지만 JSoup이 더 좋습니다. 건강에 좋고 맛있습니다. : D –

+0

나는 일반적으로 JSON 웹 서비스를 위해 아파치를 사용한다. 그래서이 경우에는 아마 쉽지 않을 것이다. 나는 대부분 친숙 함으로 그것을 선호한다고 생각합니다. – Chill