2013-09-27 2 views
1

을 하위 클래스로 분류하고 웹 사이트에서 데이터를 추출하려고합니다. 그러나 사이트의 모바일 버전으로 항상 리디렉션됩니다. Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1으로 치료 설정의 USER_AGENT 변수를 변경하려고 시도했지만 여전히 리디렉션됩니다.웹 크롤러를 모바일 버전으로 리디렉션하지 않는 방법은 무엇입니까?

다른 클라이언트에게 신호를 보내고 리디렉션을 피할 수있는 다른 방법이 있습니까?

+0

당신이 (당신이 구문 분석하는 URL로) 거미의 전체 코드를 보여 주시겠습니까? – alecxe

+1

일반적으로 긁어 모을 때 GoogleBot과 마찬가지로 로봇이 사용자임을 적극적으로 발표해야합니다. 나는 이것을 잘못 설명하는 것이 윤리적 일 수 있다고 생각할 수 없습니다 - 목표 사이트의 본질과 성격에 대해 더 밝힐 수 있습니까? – halfer

+0

http://derstandard.at/의 일부를 크롤링하려고합니다. 그러나 항상 (익스프레스/모바일) 버전으로 리디렉션됩니다. http://express.derstandard.at/ – Jon

답변

2

Scrapy에서 지원 재 지정의 두 가지 유형이 있습니다

  • RedirectMiddleware - 응답 상태
  • MetaRefreshMiddleware에 따라 요청 리디렉션을 처리 - 메타 새로 고침 HTML 태그
에 따라 요청의 처리 리디렉션

그러면 HTML 페이지가 두 번째 유형의 리디렉션을 사용하고 있을까요?

은 참조 :

관련 문제