2014-12-17 2 views
0

나는 웹 사이트에서 기사의 제목을 얻는 것을 시도하고있다. 일부 웹 사이트에서는 작동하지만 일부 사이트에서는 작동하지 않습니다.기사의 제목을 얻으십시오 preg_match와 file_get_contents

저는 BBC 뉴스를 사용해 보았습니다. 내가 NYtimes 기사로 시도했을 때, 제목 태그가 올바른 제목과 함께 존재한다는 것을 소스 코드에서 볼 수 있지만 좋은 제목을 제공하지 않습니다. 여기

나는 그것이 내가 enter link description here 을 시도 할 때에서 로그인을 제공

작동 http://www.bbc.com/news/business-30512079을하려고 할 때 코드

$titre = preg_match('/<title>(.+)<\/title>/',file_get_contents($url),$matches); 
echo $matches[1]; 

이다 - 뉴욕 타임즈

+0

file_get_contents의 출력을보십시오. –

+0

[RegEx는 XHTML 자체 포함 태그를 제외한 공개 태그와 일치 할 수 있음] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – Mike

답변

0

뉴욕 번 paygate를 사용하는 특정 요청 횟수가 지나면 로그인/가입 페이지로 리디렉션됩니다. 스크레이퍼가이 보복을 치는 것 같아요.

+0

' 그냥 html 페이지를 읽고 사이트에 '수동으로'들어가면 로그인하라는 메시지가 나타납니다. 자동으로 페이지에 액세스하여 자동으로 리디렉션한다고 생각하십니까? – klark

+0

유료화 구현은 IP/UA 문자열 식별을 기반으로하여 기사 페이지에 대한 요청 수가 일부 (5 건이 어쩌면?) 이후에 고객을 유료화 페이지로 리디렉션한다고 생각합니다. 스크래퍼가 서버의 로그인 페이지로 리디렉션되고 기사 페이지/제목이 표시되지 않습니다. – AlpineCoder

+0

나는 스크랩하려고하지 않는다, 나는 단지 페이스 북에서 기사의 일부를 그런 식으로 가져오고 싶다. 나는 그것을위한 코드를 보았지만 그것은 모든 종류의 웹 사이트에서 작동하지 않습니다. – klark

관련 문제