2010-03-16 2 views
0

웹 사이트에 액세스하고 저장된 자격 증명을 사용하여 로그인하고 HTML을 다운로드하여 구문 분석하는 Windows 서비스를 작성하는 데 어려움을 겪고 있습니다. 이 문제를 해결하는 가장 좋은 방법은 무엇이라고 생각하십니까?Windows 서비스에서 웹 사이트에 액세스하는 가장 좋은 방법은 무엇입니까?

+0

당신이하고있는 것을 스크린 스크래핑이라고합니다. Google에서 이에 대한 많은 참고 자료를 찾을 수 있습니다. –

답변

0

있는 경우 HttpWebRequest (http://msdn.microsoft.com/en-us/library/system.net.httpwebrequest.aspx) 및 Regex 또는 일부 html 구문 분석 라이브러리를 사용하여 HTML을 구문 분석합니다.

또는 물론 WebClient.

+0

-1 : HTML은 일반 언어가 아니며 일반적으로 정규 표현식을 사용하여 구문 분석 할 수 없습니다. –

+0

나는 ~해야한다고 생각합니다 *. 정말로 나는 그가 페이지에서 긁어 내고 싶은 것에 달려 있다고 믿습니다. 그리고 얼마나 많은 데이터가 단순한 정규식이면 HTML을 파싱하고 트리를 만드는 것보다 빠릅니다. –

+0

+1 : 이상한가요? 정규식을 사용하여 HTML 스트림의 텍스트를 추출/추출/대체하는 데 성공했습니다. –

0

특정 웹 사이트 인 경우 필요한 POST 데이터를 즉시 보내고 로그인 페이지의 구문 분석을 건너 뛸 수 있습니다. HttpWebRequest 또는 WebClient이 필요합니다. 연결을 열고 게시물 데이터를 보낸 다음 응답을 검색해야합니다. 나는 HTML 페이지를 구문 분석 여기에 :)

것 같은 느낌보다 더 복잡 조금, 나는 HtmlAgilityPack

과 성공을 했어 당신은 IRobotX ActiveX 컨트롤을 호스팅하고 페이지를 검색하는 웹 로봇을 실행할 수 있습니다
관련 문제