2014-03-06 2 views
-1

HTML 페이지에서 데이터를 추출한 다음 태그가 포함 된 태그를 파싱했습니다. 이제는 제목 및 href 태그 만 추출하는 등 다양한 방법으로 시도했습니다. 하지만 일하는 것이 아니에요. 누구든지 나를 도울 수 있습니까? 이것은 내 출력자바를 사용하여 html 태그에서 내용 추출

내 코드

 doc = Jsoup.connect("myurl").get(); 

    Elements link = doc.select("a[href]"); 
    String stringLink = null; 
    for (int i = 0; i < link.size(); i++) 
    { 

     stringLink = link.toString(); 
     System.out.println(stringLink); 
    } 

출력

<a class="link" title="Waf Ad" href="https://www.facebook.com/waf.ad.54" 
data- jsid="anchor" target="_blank"><img class="_s0 _rw img" src="https: 
//fbcdn-profile-a.akamaihd.net/hprofile-ak-ash1/t5/186729_100007938933785_ 
508764241_q.jpg" alt="Waf Ad" data-jsid="img" /></a> 
<a class="link" title="Ana Ga" href="https://www.facebook.com/ata.ga.31392410" 
data-jsid="anchor" target="_blank"><img class="_s0 _rw img" src="https:// 
fbcdn-profile-a.akamaihd.net/hprofile-ak-ash1/t5/186901_100002334679352_ 
162381693_q.jpg" alt="Ana Ga" data-jsid="img" /></a> 
+1

jsoup를 사용하여 선택적인 내용을 추출하는 스 니펫도 도움이됩니다 (jsoup 아래에 태그가 지정되어 있습니다) – PopoFibo

+0

@PopoFibo 시도했습니다.하지만 어떻게 작동하지 않나요? 제목 콘텐츠와 href 콘텐츠 만 가져올 수 있습니다. – chopu

+1

귀하의 노력 (즉, 귀하의 코드)은 비록 그 노력이 효과가 없더라도 – fge

답변

4

당신은 속성의 값을 추출하는 요소 클래스의 attr() 방법을 사용할 수의 작은 조각이다.

예를 들어

:

String href = link.attr("href"); 
String title = link.attr("title"); 

더이 페이지를 참조하십시오 : Extract attributes, text, and HTML from elements

3

페이지 제목을 얻으려면, 당신은 다른하는 HREF에서 개별 링크를 얻기 위해

Document doc = Jsoup.connect("myurl").get(); 
String title = doc.title(); 

을 사용할 수 있습니다 사용할 수 있습니다.

Elements links = doc.select("a[href]"); 
for(Element ele : links) { 
    System.out.println(ele.attr("href").toString()); 
} 

attr() 메서드는 일치하는 특성의 콘텐츠를 지정된 태그에서 해당 콘텐츠로 매핑합니다.

+0

죄송합니다, 태그의 제목을 볼 수 없습니다. 이를 위해 @ashatte가 제안 했으므로'attr ("title")'을 사용하여 개별 태그에서 가져올 수 있습니다. – Rakesh

+0

감사합니다. rakesh 나는 href를 얻고 있습니다. – lulu

관련 문제