2010-04-08 7 views
3

C++에서 html 텍스트 피쳐 추출기를 사용하고 있습니다. 프로그램이 정말로 빠를 필요가 있습니다. HTML 페이지 당 ms 단위로이 기능을 추출해야하며 메모리 사용량은 좋고 마침내 유니 코드 인코딩이 좋을 것입니다.정말 빠른 C++ html 파서

나는이 모든 것을 가지고있는 것이 얼마나 어려운지 알고 있지만, 나는 적어도 이것들에 가까운 파서를 원합니다.

누군가 제안 사항이 있으십니까?

+0

가까운 복제본 : http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – ChristopheD

+0

libxml (SAX/DOM/Pull)을 사용하려고 했습니까? 그 결과는 어땠습니까? – Pierre

+0

HTML! = XML. HTML이 일반 언어가 아닙니다. – Malfist

답변

1

먼저 Tidy을 통해 HTML을 실행 한 다음 XML/XHTML 파서 (Xerces)를 사용하여 코드를 구문 분석합니다.

+1

깔끔한 것은별로 빠르지 않습니다. 특히 별도의 프로세스이기 때문에 특히 그렇습니다. – EFraim

+0

왜 libxml ++ 및 Tidy에 대해 생각하십니까? 많은 사람들이 깨뜨린 html로 인한 문제를 피하기 위해 Tidy를 사용하도록 권장합니다. – Alessandro

+0

@EFraim, Tidy는 C++ 래퍼를 사용합니다. http://users.rcn.com/creitzel/tidy.html#cplusplus. 따라서 별도의 프로세스가 아니며 기본 코드로 컴파일 할 수 있습니다. –

1

Webkit은 매우 빠르다는 평판을 얻고 있습니다.

+8

WebKit은 처음부터 HTML 파서가 아닙니다. 이것은 렌더링 엔진입니다. 그것은 내부 하나를 가지고 있지만 파서 만 사용하면 잔인합니다. – EFraim

+0

우리는 파서를 잡는 방법을 알지 못해 파서를 잡을 수 있었으면 좋겠다. – Lothar