2012-04-07 3 views
2

현재 Jsoup를 사용하여 HTML을 구문 분석하고 있습니다. 이 코드는 매우 간단합니다 : 그것은 할Jsoup로 웹 페이지의 일부를 포기하는 방법?

Document doc = null; 
    try{ 
     doc = Jsoup.connect(link).get();  
    } 
    catch (Exception e) { 
     //System.out.println("Some error occured."); 
     textView.setText(e.getMessage()); 
    } 

나에게 내가 원하는 웹 페이지를 제공, 나중에 내가 그것으로 해당 웹 페이지에서 필요한 데이터를 추출 할 수있는 것은 등등 getElementsByTag의 방법입니다. 그러나 웹 페이지의 일부만 사용하고 싶습니다. 예를 들어, < 이후의 모든 것을 포기하고 싶습니다. -/foo -> 내 웹 페이지에서. (실제로는 <과! 사이에 공백이 없지만 여기에는 입력 할 수 없습니다.) 해당 문자열 다음에 웹 페이지를 포기하고 원하는 부분 만 새 문서로 가져 오는 방법이 있습니까? 나는 요리 책을 체크했으나, 웹 페이지의 구조 만 처리하고있는 것 같아서, 문자열 제거와 같은 것을 할 수 있을지는 잘 모르겠습니다. 읽어 주셔서 감사합니다.

답변

1

문서 doc = Jsoup.parse (html)을 사용할 수 있습니다. 여기서 HTML은 HTML 페이지입니다. 나는. 다음, 나는이 경우, 참조 후,

Document doc = Jsoup.parse(html) 
+0

을 클릭하여 원하는 작업을 수행 (마커 후 예 컷 HTML을하지만, 필요한 닫는 HTML 태그를 추가)

Connection connect = Jsoup.connect(url); Connection.Response response = connect.execute(); String html = response.body(); 

에 의해 처음으로 HTML을 나는 안 doc = Jsoup.connect (link) .get();으로 Document 객체를 얻는다. , 대신, 나는 웹 페이지를 먼저 얻어야하고, 내가 원하는 것을하고, Document 객체로 다시 파싱해야한다. Document 객체를 직접 수정할 수있는 방법이 있는지 궁금하지만 여전히 도움을 주셔서 감사합니다. – JLTChiu

+1

여전히 문서의 요소를 가져 와서 'remove()'를 호출 할 수 있습니다. 예를 들어 모든 이동식 html을 특수 ID가있는 div 또는 span에 넣고 제거하십시오. –

관련 문제