2012-01-05 3 views
6

와 구문 분석 할 때 나는 다음과 같은 방법으로 HtmlAgilityPack 함께 HTML 구문 분석을 시도 공백과 줄 바꿈을 제거 불행하게도 xhtmlString 불필요한 공백과 개행 문자가 포함HtmlAgilityPack

HtmlDocument htmlDoc = new HtmlDocument(); 
htmlDoc.LoadHtml(xhtmlString); 

, 그래서 HTMLDOC의 _text은 이제 다음과 같습니다 : 신체의 자식 요소로 작업 할 때

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

이 나를 위해 문제입니다.

이러한 불필요한 문자를 제거하는 가장 쉬운 방법은 무엇입니까?

개행과 탭에서 HTML을 정리하는 기능을 HtmlAgilityPack에서 제공합니까?

+0

이를 해결하려면 string.replace를 사용할 수있는 방법이 있나요? –

답변

1

이것은 문서 들여 쓰기이며 불필요한 공백 및 개행 문자는 아닙니다.
"\ t", "\ n"과 같은 특수 문자를 바꿀 수는 없지만 문제가 될 수 있습니다.

도움이 될 수 어쩌면 거짓으로 일부 속성을 설정 난이 Html Agility Pack: make code look neat
을 발견 빠른 검색을 수행

+0

나는 수동으로 특별한 문자를 대체 할 수 있지만, 오히려 html을 (의도 등)없이 추출하고 싶습니다. 예를 들어, html을 입력 한 사용자가 다른 OS를 가지고 있기 때문에 개행 문자가 다르게 인코딩되면 문제가 발생할 수 있습니다. – magnattic

+0

.Replace (Environment.NewLine, text); UNIX 및 비 UNIX 플랫폼에서 작동 할 수 있지만 "\ t"에 대해 잘 모릅니다. –

+0

@matheusrufca - 새 행에 대한 atticae의 우려가 유효합니다. 그는 다른 플랫폼에서 생성 된 html을 조작하는 문제에 대해 우려하고있다. –