2010-03-22 5 views
1

어떻게 인터넷에서 직접 웹 페이지의 제목, 헤더를 추출 할 수 있습니까 ??웹 페이지에서 헤더 추출하기

+0

자세한 내용을 입력 해주세요. – JoshBerke

+0

헤더로 ''태그의 내용을 의미합니까? 또는 실제 HTTP 헤더 내용? –

+0

내용은 입니다. – NikRED

답변

0

정규식과 WebRequest/WebResponse 클래스를 조합하여이 작업을 수행 할 수 있습니다. 그러나 모든 웹 스크래핑 요구 사항에 대해서는 Simon Mourier의 Html Agility Pack을 사용하는 것이 좋습니다.이 방법은 '나쁜'HTML에 훨씬 더 관대하며 DOM을 적절한 XML 트리로 트래버스 할 수 있습니다.

0

1 단계 - WebRequest를 사용하여 정보를 추출 할 웹 페이지에서 WebResponse를 얻습니다.

2 단계 - 당신은 HTML 또는 XHTML 웹 페이지를 나타내는 문자열, 본질적으로 무엇인지에 종료됩니다, 그래서 당신은 당신이이 중 하나에 문제가있을 경우

원하는 비트를 제거 할 필요가 단계에 대해서는 질문에 문제에 대한 자세한 내용이 포함되어 있는지 확인하십시오.

0

나는 <title>.*?</title>에 대한 페이지 HTML을 구문 분석 정규식을 사용합니다.

"헤더"를 어떻게 얻을지 모르겠습니다. 헤더가 어떻게 보이는지에 관해서는 어떤 종류의 규칙이 필요합니다. 그것은 단지 head 태그 인 경우

, 당신은 그것을 얻기 위해 상기 제목의 방법을 사용할 수 있습니다.