2010-06-03 4 views
1

Java Swing HTML 구문 분석 라이브러리를 사용하여 HTML 문서 모음을 구문 분석하고 문서 식별에 사용할 수 있도록 <title> 태그 사이에 텍스트를 분리하려고합니다. handleStartTag 방법 당신은 HTML에서 데이터를 꺼내 XPath를 사용할 수Java Swing HTML 구문 분석에 대한 도움말

+0

저는이 라이브러리에 익숙하지 않지만 텍스트를 잡기 시작하고 종료 태그를 처리 할 때 멈출 수 있습니까? –

답변

1

태그의 내부 텍스트에 액세스 할 필요가 없기 때문에 것을 달성 힘든 시간 : 그러나

String html = //... 

//read the HTML into a DOM 
StreamSource source = new StreamSource(new StringReader(html)); 
DOMResult result = new DOMResult(); 
Transformer transformer = TransformerFactory.newInstance().newTransformer(); 
transformer.transform(source, result); 
Node root = result.getNode(); 

//use XPath to get the title 
XPath xpath = XPathFactory.newInstance().newXPath(); 
String title = xpath.evaluate("/html/title", root); 

는 HTML이 잘 형성되어야한다 XHTML이 작동합니다. 예를 들어, "<br>"태그는 HTML에서는 유효하지만 XHTML에서는 닫히지 않았기 때문에 유효하지 않습니다. XHTML에서 유효하려면 "< br/>"이어야합니다.

관련 문제