2014-04-02 2 views
0

Jsoup을 사용하여 html로 특정 콘텐츠를 추출하려고합니다. 다음은 샘플 HTML 컨텐츠입니다.구문 분석 html, jsoup

<span style="white-space:nowrap;"> 
       <a class="CategoryTitle ArticleAllDC" title="рубрика" href="http://tlt.ru/articles.php?category=3">Культура</a> 
       <span class="ArticleMainDCnew ArticleAllDC" title="источник">&nbsp;/&nbsp;TLT.ru</span> 
       <span class="ArticleMainDCnew ArticleAllDC" title="дата время [просмотры] (комментарии)">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span> 
      </span> 
     </p> 

나는 02.04 12:35 [85] (0)을 싶어. 제발 도와주세요, 어떻게 할 수 있습니까?

답변

1

어떤 최적화없이 가장 쉬운 방법

String input = "<span style=\"white-space:nowrap;\">" + 
      "    <a class=\"CategoryTitle ArticleAllDC\" title=\"рубрика\" href=\"http://tlt.ru/articles.php?category=3\">Культура</a>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"источник\">&nbsp;/&nbsp;TLT.ru</span>" + 
      "    <span class=\"ArticleMainDCnew ArticleAllDC\" title=\"дата время [просмотры] (комментарии)\">&nbsp;/&nbsp;02.04 12:35 [85] (0)</span>" + 
      "   </span>" + 
      "  </p>"; 
Document d = Jsoup.parse(input); 
Elements elements = d.select("span[title^=дата]"); 
System.out.println(elements.get(0).html().replaceAll("&nbsp;/&nbsp;","")); 

출력 :

02.04 12:35 [85] (0) 

P.S. Android의 경우 출력을 얻으려면 클래스를 사용해야합니다.

0

Oodles Technologies에서 근무하는 동안 파싱과 관련하여 두 가지를 배웠습니다. 나는 여기에 추가 할 수 있을지도 모른다.

스텝 1 - :

찾는 단계이다. http://jsoup.org/download에서 jsop jar 파일을 다운로드하여 grails/java 프로젝트에 추가하십시오.

단계 -2. 사용 다음 코드는 HTML

String url = 'www.surveymyapp.com' // html file url 
def htmlPage = Jsoup.connect(url).get() // parse html from url 

단계-3 구문 분석합니다. 이제 jsoup의 다른 메소드를 호출하여 데이터를 가져올 수 있습니다. 예를 들어

- 가 DIV 이름으로 데이터를 얻으려면 'divName'

def divData = htmlPage.select("div.divName").first().toString().text() 

이미지 소스 '로고'

def imageSrc = detailsInfo.select("img.logo").attr("src") 
을 얻으려면