2012-09-27 1 views
1

웹 사이트를 스크랩하려고하는데 YQL을 사용하여 연결하려고하면 콘텐츠를 가져 오려고하는 페이지 대신 웹 사이트의 홈페이지로 리디렉션됩니다.대상 URL에서 리디렉션 된 YQL 쿼리

내 요청이 리디렉션되는 것을 방지하기 위해 수행 할 수있는 작업이나이 문제를 방지 할 수있는 해결책을 알고있는 사람이 있습니까? 대상 사이트 :
http://gticket.imagix.be/os1.aspx
요청 야후 콘솔 : 여기

내가 수행하기 위해 노력하고있어 및 어떤이 실패 요청에 같은입니다
http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fgticket.imagix.be%2Fos1.aspx%22&diagnostics=true

답변

0

YQL의 인, followRedirects 옵션이 있습니다 당신이 사용할 수 있습니다. 확인 here

1

왜냐하면 yql이 아니기 때문에 실제로는 302 리디렉션이 있습니다. 브라우저의 주소 표시 줄에 this url을 직접 입력하거나 클릭하면 사이트의 홈 페이지로 리디렉션 된 것을 볼 수 있으며이를 막을 수는 없습니다.

This은 리디렉션 후 페이지의 yql 결과입니다.

업데이트 :

는 또한 웹 사이트가 robots.txt에 지시어를 사용하여 YQL을 차단하도록 선택하는 경우, 당신이 그것을 액세스 할 수 없습니다 것을 기억하십시오. 따라서 사이트가 그러한 방식으로 설정 되었으면 yql 요청을 거부 할 수 있으며 here is an article 차단에 대해서는 yql을 차단할 수 있습니다.

+0

리디렉션 후에 원본 URL 대상을 검색하는 것이 가능합니까? 아니면 단순히 증서 끝입니까? – Jsncrdnl

+0

항상 리디렉션되므로 참석할 수 없습니다. –

+0

내 요청이 리디렉션되는 이유를 추측 할 수있는 방법이 있습니까? (그래서 내가 그것을 방아쇠를 당길려고 할 수 있었다) 내가 수동으로 얻을 수있는 페이지의 URL이라면, 나는 어떤 종류의 트릭으로도 그곳에 올 수없는 이유를 보지 못한다 ... – Jsncrdnl

관련 문제