2009-05-22 3 views
0

전체단축 URL을 크롤링 할 때 WebClient가 시간 초과되는 이유는 무엇입니까?

가끔 트위터를 크롤링하고 URL을 꺼내야하는 작은 웹 크롤러가 있습니다. .net 프레임 워크에서 제공하는 Webclient 클래스의 수정 된 버전을 사용합니다.

일반적으로 bit.ly와 같은 사이트의 URL이 단축 되어도 정상적으로 작동합니다.

그러나 다음 URL을 사용하십시오. http://is.gd/CioW 웹 클라이언트가 시간 종료됩니다.

그것의 여기로 리디렉션 의미 : http://digg.com/microsoft/Less_Virtual_More_Machine_Windows_7_and_the_magic_of_Boot

당신은 그들이 특정 클라이언트를 필터링하는 것 같아요?

이 문제를 해결할 수있는 방법이나 그 이유는 무엇입니까?

답변

0

프록시를 거치지 않고 네트워크에서 해당 URL을 확인할 수 있습니까?

웹 클라이언트 컨트롤이 리디렉션을 따르고 있습니까? TinyURL을 작성하여 테스트하고 웹 클라이언트가 찾아 볼 수 있는지 확인하십시오.

브라우저에서 프록시를 사용하는 경우 WebClient 컨트롤에 프록시를 설정해야합니다.

클라이언트를 필터링하는 경우 쉽게 테스트해야합니다. 예를 들어 Request 개체의 UserAgent를 FireFox의 UserAgent와 일치하도록 설정하십시오.

+0

예, 프록시가 있지만 이미 클라이언트를 통과하도록 구성했습니다. 그것은 내가 던지는 모든 다른 링크를 위해 작동합니다. –

+0

콘텐츠 필터링 소프트웨어 등을 통해 프록시가 특정 URL을 차단합니까? –

+0

사이트가 인식 할 수없는 사용자 에이전트를 차단하고있는 것 같습니다. IE7 문자열로 설정하면 정상적으로 작동합니다. 사용하기에 안전한 사용자 에이전트 문자열은 무엇이라고 생각합니까? –

관련 문제