제 코드에서는 openoffice를 사용하여 일부 스타일 xls 문서를 html로 변환합니다. 그런 다음 xml_parser_create
을 사용하여 테이블을 구문 분석합니다. openoffice가 닫지 않은 <BR>
과 <HR>
태그를 가진 oldschool html을 생성하고, doctypes를 생성하지 않으며 속성을 인용하지 않습니다. <TABLE WIDTH=4>
입니다.PHP에서 잘못 형식화 된 HTML 구문 분석
필자가 알고있는 php 파서는 이것을 좋아하지 않으며 xml 형식 오류가 발생합니다. 내 현재 솔루션을 내가 그것을 구문 분석하기 전에 파일을 통해 일부 regexes 실행하는 것입니다 있지만이 좋은 또는 빠른 아닙니다.
이러한 종류의 실수에 신경 쓰지 않는 (잘하면 포함되어있는) PHP 파서를 알고 있습니까? 또는 '깨진'html을 수정하는 빠른 방법일까요? 깨진 HTML 수리를 들어, Tidy을 사용할 수
+1 htmlpurifier 소개. http://simplehtmldom.sourceforge.net/도 있습니다. – Alexar
청정기는 좋지만 문제에 대해 다소 과장된 느낌입니다. DOMParser도 마찬가지입니다. 그것은 정확하지 않은가, 그것은 간단한 색소폰 파서보다 많은 시간과 숫양을 필요로 하는가? –
아마 더 많은 RAM과 시간이 필요할 것입니다. 데이터를 읽는 것만으로 수리하지는 않는 단순한 SAX 구문 분석 이상의 기능을 수행합니다. ;; SAX 파서는 유효한 XML 만 읽을 수 있다고 말하고 싶지만 - HTMLPurifier와 DOMDocument :: loadHTML은 모두 "깨진"HTML을 읽을 수 있습니다. –