C++에서 html 텍스트 피쳐 추출기를 사용하고 있습니다. 프로그램이 정말로 빠를 필요가 있습니다. HTML 페이지 당 ms 단위로이 기능을 추출해야하며 메모리 사용량은 좋고 마침내 유니 코드 인코딩이 좋을 것입니다.정말 빠른 C++ html 파서
나는이 모든 것을 가지고있는 것이 얼마나 어려운지 알고 있지만, 나는 적어도 이것들에 가까운 파서를 원합니다.
누군가 제안 사항이 있으십니까?
C++에서 html 텍스트 피쳐 추출기를 사용하고 있습니다. 프로그램이 정말로 빠를 필요가 있습니다. HTML 페이지 당 ms 단위로이 기능을 추출해야하며 메모리 사용량은 좋고 마침내 유니 코드 인코딩이 좋을 것입니다.정말 빠른 C++ html 파서
나는이 모든 것을 가지고있는 것이 얼마나 어려운지 알고 있지만, 나는 적어도 이것들에 가까운 파서를 원합니다.
누군가 제안 사항이 있으십니까?
깔끔한 것은별로 빠르지 않습니다. 특히 별도의 프로세스이기 때문에 특히 그렇습니다. – EFraim
왜 libxml ++ 및 Tidy에 대해 생각하십니까? 많은 사람들이 깨뜨린 html로 인한 문제를 피하기 위해 Tidy를 사용하도록 권장합니다. – Alessandro
@EFraim, Tidy는 C++ 래퍼를 사용합니다. http://users.rcn.com/creitzel/tidy.html#cplusplus. 따라서 별도의 프로세스가 아니며 기본 코드로 컴파일 할 수 있습니다. –
가까운 복제본 : http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – ChristopheD
libxml (SAX/DOM/Pull)을 사용하려고 했습니까? 그 결과는 어땠습니까? – Pierre
HTML! = XML. HTML이 일반 언어가 아닙니다. – Malfist