일반적으로 XML 및 HTML과 같은 마크 업 언어를 수동으로 구문 분석하는 것은 좋지 않습니다. 그러나 모든 요소를 제거하려고하는 경우 간단한 스크립트가 어디에 유용 할 수 있는지 확인할 수 있습니다.
내가 언급 할만한 가치가 있다고 생각되는 것은 HTML의 모든 요소를 제거하면 여러 텍스트가 함께 걸릴 수 있다는 것입니다. 이 코드를보고 도움이되는지 확인하십시오.
public class RemoveHtmlElements {
public static void main(String[] args) {
String html = "<!DOCTYPE html><html><body><h1>My First Heading</h1>"
+ "<p>My first paragraph.</p></body></html>";
boolean elementsExist = true;
while(elementsExist) {
if(html.contains("<")) {
int open = html.indexOf("<");
int closed = html.indexOf(">", open);
html = html.substring(0, open) + " " + html.substring(closed + 1);
} else {
elementsExist = false;
}
}
System.out.println(html);
}
}
괄호로 묶인 요소의 HTML을 정리해야합니다. 예기치 않게 텍스트가 함께 걸리지 않도록 요소를 제거하는 공간을 입력합니다.