전체단축 URL을 크롤링 할 때 WebClient가 시간 초과되는 이유는 무엇입니까?
가끔 트위터를 크롤링하고 URL을 꺼내야하는 작은 웹 크롤러가 있습니다. .net 프레임 워크에서 제공하는 Webclient 클래스의 수정 된 버전을 사용합니다.
일반적으로 bit.ly와 같은 사이트의 URL이 단축 되어도 정상적으로 작동합니다.
그러나 다음 URL을 사용하십시오. http://is.gd/CioW 웹 클라이언트가 시간 종료됩니다.
그것의 여기로 리디렉션 의미 : http://digg.com/microsoft/Less_Virtual_More_Machine_Windows_7_and_the_magic_of_Boot
당신은 그들이 특정 클라이언트를 필터링하는 것 같아요?
이 문제를 해결할 수있는 방법이나 그 이유는 무엇입니까?
예, 프록시가 있지만 이미 클라이언트를 통과하도록 구성했습니다. 그것은 내가 던지는 모든 다른 링크를 위해 작동합니다. –
콘텐츠 필터링 소프트웨어 등을 통해 프록시가 특정 URL을 차단합니까? –
사이트가 인식 할 수없는 사용자 에이전트를 차단하고있는 것 같습니다. IE7 문자열로 설정하면 정상적으로 작동합니다. 사용하기에 안전한 사용자 에이전트 문자열은 무엇이라고 생각합니까? –