다른 위치에 RSS 피드가 노출 된 100 개의 웹 사이트가 있습니다. 이 위치에는 여러 피드를 가리키는 몇 개의 RSS 피드 링크가 있습니다. 영국 BBC RSS로 그것과 거의 동일 페이지 http://www.bbc.com/news/10628494Extract RSS Feed URL from
사이트 1 피드 : 사이트 2 domain1.com/rss :
가에 RSS 링크를 추출 할 수있는 방법이 있나요 domain2.com/enviroments/rss 각 피드 XML.와 비슷하지만이 부분은 Automatically Extracting feed links (atom, rss,etc) from webpages과 비슷하지만 사이트에만 제공하고 싶습니다. 그래서 특정 사이트에 대해 가능한 모든 RSS 피드를 얻습니다.
저는 100 개의 웹 사이트에서 제공되는 모든 RSS 피드 목록을 원합니다. 그러면 대시 보드에서 모니터 할 수 있습니다. 오, bith 원자와 rss가 섞인 피드.
내가 한 것. 나는 apache nutch와 parse-feed plugin을 들여다 보았다. 치료는 다음 옵션 이었지만 아직도 내가 무엇을 찾고 있는지 확실하지 않습니다.
나는 사람들이 적절한 유형의 피드 링크를 넣기를 바랍니다. 그래서 그들은 쉽게 데리러 올 수 있습니다. 내가 크롤링을하지 않는다면 크롤링 시간이 훨씬 오래 걸린다는 것을 알 수 있습니다. – user3279550
예. 글쎄 ... 일단 당신이 좋은 링크를 얻을. 반대로, 하나의 웹 사이트에 많은 피드가있는 경우 헤더의'link' 태그에 모든 피드가 나타나지 않을 것입니다. 그것은 당신이 모든 피드를 얻고 싶어하는지 여부에 달려 있습니다. –
물론 귀하의 권리는 헤더에 나타나지 않을 것입니다. 우리는 단순히 모든 페이지를 크롤링하고 콘텐츠 형식을 찾고 있는지 확인하기 위해 콘텐츠를 구문 분석해야합니다. – user3279550