준 HTML 텍스트는 다음과 같습니다. Simple<br> text <b>simple</b> text simple <BR><BR>text simple text
, 나는 구문 분석하고 dom document을 만들고 싶습니다.java에서 유사 -html 텍스트를 구문 분석하는 방법은 무엇입니까?
DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);
오류가 발생합니다 : org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag
내가 원하지 않는 모든 <br>
<br></br>
, 모든 솔루션 또는 조언에 의해 대체 내가 이것을 시도하지만 문제는, 닫히지 않은 태그 함께?
아마도 DOM으로 가져올 수 없습니다. [jSoup] (http://jsoup.org/)와 같이 조심성있는 HTML 파서를 사용해야합니다. 웹 브라우저처럼. –
나는 그것이 HTMLEditorKit으로 할 수 있다고 생각한다 ... – linski
@BoristheSpider 표준 자바로 할 수있는 jSoup에 대한 필요성, 내 대답을 참조하십시오. – linski