2010-05-08 4 views
1

나는 curl과 php를 사용하여 RSS 피드에서 특정 페이지를 긁어내는 실험을하고 있습니다. RSS 피드의 링크가 아니라 실제 링크를 사용했을 때 페이지 스크래핑이 제대로 작동했습니다. 그러나, 나는 RSS 피드의 링크가 보통 실제 페이지로 리다이렉트된다는 사실을 알게되었다. 왜냐하면 지금 내가 rss 링크가 포함 된 페이지를 긁어내어 실제로 찾고있는 정보를 얻지 못하기 때문입니다.RSS 피드 링크에서 실제 링크 받기

누구든지이 문제가 발생했거나 해결 방법을 알고 있습니다. 어쨌든 rss 링크가 리디렉션되는 위치를 확인하고 그 값을 캡처합니까?

답변

0

리디렉션을 따르기 위해 -L 스위치를 사용해야 할 수도 있습니다. PHP에서 직접이 작업을 수행 할 수 있는지 또는이 접근 방식을 따라야하는지 여부는 확실하지 않습니다. http://php.net/manual/en/function.curl-setopt.php#95027. 당신이 긁고있는 사이트가 사용자 에이전트 (user agent) 또는 어떤 것에 의해서도 차단 될 가능성은 항상 있습니다. 어쩌면 브라우저에서 링크 중 하나를 사용하여 피들러 (Fiddler) 또는 이와 유사한 기능을 실행하면서 리다이렉션이 실제로 일어나는지 확인하십시오.

+0

감사합니다. 예, 리디렉션을 반복하고 마지막 스크립트를 찾는 스크립트를 발견했습니다. 대부분의 사이트가 사용자 에이전트에 의해 차단되지 않는 것처럼 보이지만 일부는 있습니다. – pfunc