2016-09-03 3 views
-1

Aggragator 웹 사이트를 구축 중입니다. 예를 들어 www.nbcnews.com을 사용하면 "넘버 원 스토리"는 텍스트가있는 큰 그림입니다. 그러면 실제 기사로 연결됩니다. 나는 그 그림과 텍스트를 내 사이트에도 비추고 싶다. 물론 내 웹 사이트의 정적 링크를 해당 이미지와 텍스트로 설정할 수도 있습니다. 그러나 그들이 "넘버 원 스토리"를 바꿀 때 나의 광산은 여전히 ​​옛 이야기에 대한 정적 링크가 될 것입니다. 프로세스를 자동화하는 방법이 있습니까? 그들의 "번호 하나"이야기가 새롭게 할 때마다, 나는 그 변화를 비추는 나의 첫번째 이야기를 원한다.aggragator 웹 사이트 - 자동화 된 컨텐츠 미러링

웹 스크레이퍼를 사용하지 않는 php 또는 java 솔루션이 있습니까 ??

다음은 내가 말하는 정적 링크가 설정된 빈 페이지의 예입니다.

현재 RSS 피드가없고 API도 없습니다. 이는 공정 사용 법률로 인해 합법적이며 클릭하면 사실을 저자 웹 사이트로 다시 연결합니다.

<!doctype html> 
<html> 
<head> 
<meta charset="utf-8"> 
<title>Untitled Document</title> 
</head> 
<div style="height: 400px; width: 900px; border: 2px red solid"><a href="http://www.nbcnews.com/politics/2016-election/donald-trump-s-strange-surprise-last-minute-jaunt-mexico-n640686"><img src="http://media4.s-nbcnews.com/j/newscms/2016_35/1690621/160831-trump-pena-nieto-mn-0851_697c23fc65b3e981f879e0302b490899.nbcnews-fp-600-320.jpg" width="100%" height="100%" alt=""/></a> 
</div> 
<body> 
</body> 
</html> 
+0

Google을 사용하거나 웹 사이트를 크롤링하는 방법 * 또는 * 그들이 RSS 피드를 제공하는지 api * 또는 * 확인하는지 확인하려면이 사이트를 검색하십시오. – PeeHaa

+0

API 또는 RSS 피드가 없습니다. 나는 또한 RSS 피드를 편집하여 리드 스토리에만 국한시키고 메인 이미지 만 사용하는 방법을 모른다. 이 작업을 수행하는 유일한 방법은 스크레이퍼를 만드는 것입니까? – brett

+0

TOS 사이트를 위반하지 않았는지 확인하십시오. 당신은 아마 – nogad

답변

-1

생각해 보면별로 어렵지 않습니다. 우선 파이썬으로 작업했고 두 개의 라이브러리가 필요했습니다. 요청 및 lxml 파이썬 라이브러리. 요청은 실제 웹 페이지로 이동하는 데 사용되었으며 lxml은 웹 사이트에서 html snippet 부분을 스크랩하는 데 사용되었으며 lxml 라이브러리의 반환 값을 사용자가 사용할 수있는 데이터 구조로 변환하는 함수 하나를 작성해야합니다. 웹 사이트.

+0

감사합니다. 그건 나에게 의미가 있지만 나는 구글이나 빈칸을 채우기 위해 여기에서 검색 할 수 있다고 확신한다. 나는 파이썬을 전혀 모른다. 그 하나의 자리 잡기위한 PHP 솔루션이나 자바 스크립트 솔루션이 있습니까? – brett

+0

나는 PHP와 매우 흡사하기 때문에 파이썬을 언급했지만 훨씬 더 깔끔한 구문입니다. 당신은 확실히 PHP 또는 자바 스크립트에서 파이썬 이에 상응하는 librariea를 찾을 수 있습니다. – slopeofhope

관련 문제