2013-10-09 3 views
1

웹 페이지에서 텍스트를 추출하는 데 JSoup 라이브러리를 사용하고 있습니다. 다음은 내 코드입니다웹 페이지에서 모든 텍스트를 추출하는 방법

Document doc; 

try { 
URL url = new URL(text); 


doc = Jsoup.parse(url, 70000); 

Elements paragraphs = doc.select("p"); 
for(Element p : paragraphs) 
{ 

    textField.append(p.text()); 
    textField.append("\n"); 
} 
} 
catch (Exception ex) 
{ 

    ex.printStackTrace(); 

} 

여기에서 "p"태그에서만 텍스트를 가져올 수 있습니다. 그러나 나는 모든 텍스트가 필요하다. 내가 어떻게 해? 그 노드를 통해 반복하지만, 그냥 그걸로 잘하지 JSoup을 사용하기 시작했을 수도 있습니다. 도와주세요.

+0

내 대답을 편집 한, 저를 혼동하는 경우 알려 주시기 바랍니다. – Jhanvi

답변

1

이 시도 : 여기

String text = Jsoup.parse(new URL("https://www.google.com"), 10000).text(); 
System.out.println(text); 

, 10000 밀리 초이며 제한 시간을 의미합니다.

+0

안녕하세요, 답장을 보내 주셔서 감사합니다. 어쨌든 위키파디 아에서 텍스트를 추출하지 않는 것 같습니다. –

+0

@Artificial_Intelligence 위키 피 디아에서 텍스트를 추출하는 데이 텍스트를 사용했지만 제 요구 사항이 다를 수 있습니다. 예를 들어 http://en.wikipedia.org/wiki/Java_%28programming_language%29, 위의 코드에서이 URL을 사용했습니다. – Jhanvi

0

을 사용하는 것이 좋습니다. HTML 구문 분석이 필요 없기 때문에 텍스트 추출 만 사용할 수 있습니다. 이것은 더 빠르고 CPU 사용량이 적어야합니다.

예 :에서 촬영

URL url = new URL("http://www.example.com/some-location/index.html"); 
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you 
String text = ArticleExtractor.INSTANCE.getText(url); 

: https://code.google.com/p/boilerpipe/wiki/QuickStart

관련 문제