libxml2 HTML 청크 파싱

웹 사이트에서 HTML을 다운로드 중입니다. 파일이 상당히 클 수 있으므로 파일을 다운로드하는 동안 이미 사용 가능한 HTML 덩어리를 구문 분석하여 프로그램의 최종 사용자에게 프로세스가 더 빨리 표시되도록하고 싶습니다. 나는 덩어리가 생성되는 방식을 제어 할 수 없으므로 청크는 단어 중간에 시작할 수 있습니다. like :libxml2 HTML 청크 파싱

내가 설명한 것처럼 XML 청크를 구문 분석하는 데 libxml2가 사용 된 예제를 보았습니다. libxml2도 HTML 청크를 파싱 할 수 있습니까? 다운로드 할 html 파일을 깔끔하게 점검했지만 경고는 있지만 오류는보고하지 않습니다. libxml2도 그 HTML 청크를 파싱 할 수 있습니까?

출처

2010-08-14 Mark Payton