2011-12-15 4 views
0

웹 크롤러에서 작업하는 동안, 나는 다음과 같은 웹 페이지를 포함하는이 이상한 발생 건너 온 : http://abudhabitourism.ae/en/이상한 자동 HTTP 리디렉션 (302 코드)

이 페이지 (200)는 반환 상태 코드를 다운로드 wget과 사용을 모든 것이 잘됩니다. 내 크롤러 프로그램이 페이지를 (GET 요청) 요청하면

그러나, 서버와 상태 코드 (302)를 반환하는 것 같다 이상한 보이는 위치 헤더 필드 "이동 - 투"

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx&paramName=result&gotoURL=http%3a%2f%2fabudhabitourism.ae%2fen%2fdefault.aspx

이것은 실제로 URL 또는 스크립트입니까? 내 크롤러 프로그램에서이 사건을 처리 할 수있는 방법에 대한 아이디어

감사합니다, 교수 Chiraz BenAbdelkader을

답변

0

내가 생각하는 (즉, 자동으로 올바른 이동-할 위치 헤더에서 url로 추출 할 수) wget을 302에서 리다이렉트 (redirect)를 따른다. curl을 사용하여 페이지를 얻었을 때, 302와 함께 헤더와 후속을위한 URL을 리턴한다.

curl -iI http://abudhabitourism.ae/en/ 
+0

wget이 수행해야하는 작업이어야합니다. 그러나 내 주요 문제는 이상한 - 찾고 이동 - url; 당신은 곱슬 곱슬로 같은 것을 얻습니까? –

+0

나는 현재 리눅스 머신에 접근 할 수 없다고 덧붙여 야한다. –

+0

iMac-van-Stephan : ~ stephan $ curl -iI http://abudhabitourism.ae/en/ HTTP/1.1 302 Found 캐시 제어 : 개인 콘텐츠 길이 : 298 콘텐츠 형식 : text/html; charset = utf-8 위치 : http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx¶mName=result&gotoURL=http%3a%2f%2fabudhabitourism. ae % 2fen % 2fdefault.aspx 서버 : Microsoft-IIS/7.5 X-AspNet- 버전 : 2.0.50727 Set-Cookie : ASP.NET_SessionId = muilyp55knx54k45ypy5iq55; 경로 = /; HttpOnly X-Powered-By : ASP.NET 날짜 : 2012 년 3 월 5 일 월요일 16시 20 분 10 초 GMT – stephangroen

관련 문제