2009-12-26 4 views
3

서식 및 텍스트 변경을 위해 여러 HTML 페이지 버전을 비교해야합니다. 불행히도 HTML을 만드는 사람/회사는 매번 모든 HTML을 다시 랩하고 (그리고 많은 공백을 추가하는) 일종의 HTML 편집기를 사용하기 때문에 HTML을 편집하기가 어렵습니다. 그래서 나는 모든 중요하지 않은 공백과 개행 문자가 제거되는 방식으로 HTML을 재 형식화 할 수있는 도구 (Java 라이브러리 선호)를 찾고있다.HTML에서 중요하지 않은 공백을 제거하는 방법

<h1>First Headline</h1> <h2>Second headline</h2> 

</h1><h2> 사이의 공간이 제거되어야 수단에

,하지만

<b>formatted</b> <i>text</i> 

공백 에서 제거 될 수 없다. 나는 <pre>, <textarea> 또는 <script> 블럭을 신경 쓰지 않고 동작을 변경할 수있는 CSS 공백 속성에 대해서는 신경 쓰지 않는다. 나는 단지 불필요한 공백을 제거하는 해결책을 찾고있다. (그리고 너무 많은 공백을 남겨 두는 것이 좋다.).

(이미 텍스트를 더 읽기 쉽게하기 위해 공백 대신 여러 공백을 제거하고 줄 바꿈을 다시 추가합니다. 그러나 예를 들어 헤드 라인이나 표 셀/행 사이에 새 줄 바꿈이 나올 때 너무 많은 경우가 있습니다. 간단한 "해결책"이라고 부름)

+0

인가? 이 경우 더 많은 옵션이 있습니다. – bmargulies

+0

그것은 호환되지 않습니다. 파일을 만들고 편집하는 데 (wysiwyg) 도구가 사용되었지만 HTML이 끔찍한 경우 (머리/본문 태그가 여러 개이고 및 등이 누락되었습니다.) 아이디어가 없습니다. – mihi

+0

을 잊지 마세요. th입니다. – mihi

답변

6

JTidy이 여기에 해당됩니다. HTML을 파싱하고 HTML 형식의 HTML을 허용하고 HTML을 DOM으로 표시하는 HTML 파서입니다.이 형식을 무시하여 관심이없는 부분을 제거 할 수 있습니다.

관련 문제