C# http 모듈을 사용하여 웹 페이지에서 데이터를 제거하려고합니다. 나는 단지 원시 텍스트와 이미지을 원한다. 어떻게하면 다른 모든 것을 제거 할 수 있습니까?<img src=random.jpg> 및 <p>랜덤 텍스트</p> (html)
private static Regex reg = new Regex(@"<img src=\t????????");
public override void Write(byte[] buffer, int offset, int count)
{
byte[] data = new byte[count];
Buffer.BlockCopy(buffer, offset, data, 0, count);
string html = System.Text.Encoding.Default.GetString(buffer);
html = reg.Replace(html, string.Empty);
byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
_sink.Write(outdata, 0, outdata.GetLength(0));
}
** 힌트 : ** XML 파서를 사용하십시오. – Blender
[필수] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454) –
@Blender - HTML 파서가 더 좋을 것입니다. 선택. – Oded