2012-07-12 2 views
0

Java 프로젝트 내에서 Html5 페이지를 정리해야합니다.자바로 Html5 페이지 정리하기 : 가능합니까?

Java 라이브러리 나 Linux 및 Windows에서 작동하는 명령 행 프로그램이 필요합니다.

JTidy가 제대로 작동하지 않습니다 (테스트 해 보았습니다). HTML HTML5 용 Tidy는 C++ 라이브러리이며 명령 행 버전은 Linux에서만 작동합니다.

Validator.nu HTML 파서도 정리했는지 (내가 그것에 대한 정보를 찾지 못했습니까?) 알고 계십니까?

아이디어가 있습니까?

감사

+0

"청소"로 무엇을 이해합니까? 좋지 않거나 잠재적으로 위험한 태그를 제거 하시겠습니까? 재 포맷? HTML5 정확성을 확인 하시겠습니까? – tucuxi

+0

"좋은 형식의 입력 웹 페이지가 있습니다"라는 의미입니다. –

+1

그런 다음 구문 분석 및 다시 출력하고 "정리"하지 않으려합니다. 파서가 문제를 알려줍니다. – tucuxi

답변

0

사용 JSoup. 잘 지원되며, 네이티브 구성 요소 (Java가하는 모든 곳에서 실행되어야 함), 자유롭고 매우 자유로운 라이센스는 없습니다. 또한 HTML5를 지원합니다.

+0

Jsoup 및 clean() 메서드를 사용하려고했지만 Html5 태그를 WhiteList 개체 (GULP!)에 수동으로 추가해야하는지, 아니면 페이지를 정리할 다른 방법이 있는지 이해할 수 없었습니다. –

+0

요구 사항에 따라 다릅니다 (위의 주석 참조). 예를 들어 기본 Whitelist.relaxed()를 조정하면됩니다. 가장 간단한 HTML을 다룹니다. – tucuxi

+0

"relaxed"는 body 태그에서 잘 작동하지만 head 태그를 추가하는 방법을 찾지 못했습니다 ... –