나는 (당신의 마음에 개요, 삽입 태그 및 콘텐츠) 예를 들어, 웹 사이트의 콘텐츠가 포함 된 문자열불필요한 웹 사이트 콘텐츠를 얻으려면 어떻게해야하나요?
$string = '<html>
<head>
<meta content="text/html; charset=ISO-8859-1" http-equiv="content-type">
<title>Some title
</title>
</head>
<body>Navigation
<br><div>CSS</div>
<br><div>JavaScript</div>
<br>Advertising
<br><div>Content</div>
<br>Navigation
<br>Advertising
<br>Inprint
<br>
</body>
</html>'
이 어떻게 불필요한없이 콘텐츠를해야하나요? 콘텐츠로, 나는 "콘텐츠"라는 단어를 의미하는 것이 아니라 웹 사이트의 실제 내용을 의미합니다.
예를 들어, 포럼에서 탐색, 태그, 광고없이 포럼의 항목을 원합니다.
나는 태그를 제거하고 있지만 내용을 가져 오지 않고있는 string s = Regex.Replace(string, "<.*?>", String.Empty);
을 시도했습니다.
반복적이고 악용 될 수있는 패턴이있어 혼란없이 콘텐츠를 얻을 수 있습니까?
나는 "불필요한"이 무슨 뜻인지 몰라. 예상되는 결과물을 게시 할 수 있습니까? – smead
Html Agility Pack을 사용하여 HTML을 구문 분석하십시오. –
@smead가 업데이트되었습니다. –