2009-05-08 5 views
6

누구나 VB.NET 또는 C# 용 HTML 파서를 알고 있습니까? .NET에는 XMLReader 및 XMLWriter와 같은 XML 지원이 많이 있다는 것을 알고 있습니다. HTMLWriter 또는 HTMLReader가 있습니까?HTML 파서

궁극적으로 HTML 파일을 파싱하고 발견 한 태그를 기반으로 이벤트를 발생시키는 라이브러리가 궁금합니다. 누구든지이 일을 할 수있는 도서관을 알고 있습니까?

+0

내가 BCL 나던 적절한 중립 네임 스페이스/어셈블리의 적절한 HTML 파서를 생각하지 못할 (그 UI 어셈블리의 일부를 건드리지 않고) . JSON과 XML에는 많은 수업이있었습니다. – nawfal

답변

5

HTML Agility Pack은 HTML을 구문 분석하려는 경우 이동하는 방법입니다 (태그 수프에서도 잘 작동합니다). 이론적으로 BCL에 포함 된 XML 구문 분석기는 유효한 XHTML을 구문 분석 할 수 있어야하지만 HTML 민첩성 팩은 일반 HTML, XHTML 및 지저분한 변형을 모두 처리 할 수있는 일반적인 솔루션입니다.

태그를 찾을 때 이벤트를 발생시키는 것은 당연히 구현해야 할 것이지만 클래스를 사용하면 상당히 간단합니다.

+0

프로덕션 코드에서 사용했으며 매우 기뻤습니다. – mkelley33

+0

나도 프로덕션에서 사용 - 잘 작동합니다! – Dror

1

저는이 HtmlParser를 오래 전에 작성했으며 방금 GitHub의 오픈 소스 프로젝트로 발표했습니다. DOM을 빌드하지 않기 때문에 일반적인 HTML 구문 분석 도구보다 빠릅니다. 그것은 당신이 요청한 것을 정확히 수행하고 각 태그에 대해 "이벤트"를 발생시킵니다.

https://github.com/calbucci/CalbucciLib.HtmlParser

난 그냥 NuGet에 추가 :

https://www.nuget.org/packages/CalbucciLib.HtmlParser/

+0

HTML5 태그도 구문 분석합니까?

등? – Icemanind

+0

예. 그것은 심지어 알 수없는 태그를 지원합니다. –