2010-08-14 6 views
1

웹 사이트에서 HTML을 다운로드 중입니다. 파일이 상당히 클 수 있으므로 파일을 다운로드하는 동안 이미 사용 가능한 HTML 덩어리를 구문 분석하여 프로그램의 최종 사용자에게 프로세스가 더 빨리 표시되도록하고 싶습니다. 나는 덩어리가 생성되는 방식을 제어 할 수 없으므로 청크는 단어 중간에 시작할 수 있습니다. like :libxml2 HTML 청크 파싱

내가 설명한 것처럼 XML 청크를 구문 분석하는 데 libxml2가 사용 된 예제를 보았습니다. libxml2도 HTML 청크를 파싱 할 수 있습니까? 다운로드 할 html 파일을 깔끔하게 점검했지만 경고는 있지만 오류는보고하지 않습니다. libxml2도 그 HTML 청크를 파싱 할 수 있습니까?

답변

0

콘텐츠가 XHTML 인 경우 실제로 XML이므로 libxml2를 사용하여 구문 분석 할 수 있습니다. 반면에 규칙적인 HTML이라면 대신 SGML 파서를 사용해야합니다.

+0

'' –

+0

이 경우 XML 파서로 충분합니다. 실제로 * 유효 * XHTML이라고 가정합니다. – You

0

글쎄, 그것은 유효한 XHTML이 아닌 것 같습니다. HTML 청크를 정리할 수있는 방법이 있습니까?

1

libxml2에는 형식이 잘못되거나 부러진 html을 지원하는 html 파서가 있습니다. 여기서 link을 확인하십시오.