html 페이지의 구조를 분석하고 싶습니다. 페이지의 경우 문자열로 사용하고 텍스트를 제거하고 html 구조 만 유지하려고합니다. DOM 파서를 사용하고 싶지 않고, xhtml뿐만 아니라 일반 html에서도 작동하는 강력한 기능이 필요합니다. 나는 정규 표현식이 html 태그를 스트링에서 제거하는 데 충분하지만 텍스트를 제거하고 html 태그 만 유지할 수 있는지 알고있다.자바에서 텍스트와 HTML 문자열을 제거하는 방법
사용할 수있는 다른 옵션/프레임 워크를 알고 계십니까?
DOM 파서를 확실히 수행 할 것입니다 ... –
이유는 내가 DOM 파싱을 피하고 싶었 기 때문에 그 결과 HTML을 DOM이 아닌 문자열로 사용하고 싶었 기 때문입니다. 그러나 DOM 파서를 사용하여 텍스트를 제거한 다음 문자열로 가져올 수 있습니다. 그것도 작동합니다, 나는 단지 내가 가지고있는 다른 옵션이 무엇인지 알고 싶습니다. – adiian