1
Java Swing HTML 구문 분석 라이브러리를 사용하여 HTML 문서 모음을 구문 분석하고 문서 식별에 사용할 수 있도록 <title>
태그 사이에 텍스트를 분리하려고합니다. handleStartTag
방법 당신은 HTML에서 데이터를 꺼내 XPath를 사용할 수Java Swing HTML 구문 분석에 대한 도움말
Java Swing HTML 구문 분석 라이브러리를 사용하여 HTML 문서 모음을 구문 분석하고 문서 식별에 사용할 수 있도록 <title>
태그 사이에 텍스트를 분리하려고합니다. handleStartTag
방법 당신은 HTML에서 데이터를 꺼내 XPath를 사용할 수Java Swing HTML 구문 분석에 대한 도움말
태그의 내부 텍스트에 액세스 할 필요가 없기 때문에 것을 달성 힘든 시간 : 그러나
String html = //...
//read the HTML into a DOM
StreamSource source = new StreamSource(new StringReader(html));
DOMResult result = new DOMResult();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.transform(source, result);
Node root = result.getNode();
//use XPath to get the title
XPath xpath = XPathFactory.newInstance().newXPath();
String title = xpath.evaluate("/html/title", root);
는 HTML이 잘 형성되어야한다 XHTML이 작동합니다. 예를 들어, "<br>"태그는 HTML에서는 유효하지만 XHTML에서는 닫히지 않았기 때문에 유효하지 않습니다. XHTML에서 유효하려면 "< br/>"이어야합니다.
저는이 라이브러리에 익숙하지 않지만 텍스트를 잡기 시작하고 종료 태그를 처리 할 때 멈출 수 있습니까? –