2011-08-07 3 views
0

가능한 중복은 :
Fast, lightweight HTML parser for C++HTML을 빠르게 파싱하는 가장 좋은 방법은 무엇입니까?

나는 문자열에서 웹 사이트의 내용을 가지고 있고 데이터의 약 10 조각을 구문 분석하고 싶습니다. 무엇이 빠른, 유연한 & 이것을 달성하는 쉬운 방법이 될 것입니까?

이 작업을 위해 정규 표현식을 사용하는 것이 적절하지 않으며 대신 일종의 XML 파서를 사용해야한다고 들었습니다. 누구든지 추천할만한 사람이 있습니까?

+0

조금 더 자세하게 추가 할 수 있습니까? 필요한 데이터는 무엇입니까? 페이지는 어떻게 보입니까? –

+0

이 질문을 참조하십시오이 사이트에 게시 : http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser – Griffin

+0

Dublicate? http://stackoverflow.com/questions/489522/library-recommendation-c-html-parser 또한 올바른 대답은 "C++을 사용하지 마십시오." –

답변

4

전용 HTML 파서가 필요합니다. 일반적인 경우 XML 파서 또는 정규 표현식을 사용할 수 없습니다. 세계에서 가장 유지하기 어려운 코드를 원한다면 regex를 사용하여 매우 구체적인 데이터를 추출 할 수 있습니다.

+0

(C#) [HTML 민첩성 팩] (http://htmlagilitypack.codeplex.com/)은 .NET에서 널리 사용되는 토크 나이저/파서입니다. – Oded

관련 문제