2014-06-10 2 views
0

SEO를 분석하는 웹 서비스를 구축해야합니다. 이 서비스는 사이트가 얼마나 자주 업데이트되었는지 보여줍니다. 웹 사이트의 HTML에서 게시 된 날짜 또는 업데이트 빈도를 얻는 방법을 알아야합니다.웹 사이트의 업데이트 빈도를 얻는 방법

예를 들어 http://googletesting.blogspot.com/에서 <span>Wednesday, June 04, 2014</span> 태그에서 날짜를 가져올 수 있습니다. 다른 웹 사이트는 동일한 태그 및 날짜 형식을 사용하지 않으므로 해당 날짜를 감지하는 데 동일한 코드를 사용할 수 없습니다. (날짜는 다른 로케일에서 매우 다른 형식을 가질 수 있습니다. 또한 월 이름은 텍스트 또는 숫자로 작성 될 수 있습니다. 가능한 한 많은 날짜를 일치시켜야합니다. 날짜 형식은 게시 날짜가 아니지만 기사의 단어 일뿐입니다 .

내 알고리즘에 대한이 내가 게시 된 후 계산 업데이트 빈도에서 "게시 된 날짜"를 얻기 위해 시도합니다. 주먹 30May 2012에 게시 같은, 두 번째 29May2012에 게시, 세 번째는 그래서 결과를 얻을 수 28May2012 에 게시 이 웹 사이트가 업데이트되었습니다 dairly

결국 각 웹 사이트가 업데이트되는지 알고 싶습니다 :

012 연간 3,516,
  • 주간
  • 매일

어떻게 안정적으로 어떤 웹 사이트에서이받을 수 있나요?

+0

블로그 만보고있는 경우 RSS 피드는 내가 원하는 것 – hd1

답변

0

페이지의 날짜를 구문 분석하는 대신 홈 페이지를 다운로드하여 저장할 수 있습니다. 그런 다음 매일 다시 돌아와서 홈페이지가 다시 다운로드되었는지 확인할 수 있습니다. 이 방법은 홈페이지에 날짜를 게시하지 않는 사이트에 대해서도 작동합니다. 그래도 대답을 얻는데는 더 오래 걸릴 것입니다.


또 다른 방법은 사이트의 RSS 피드를 다운로드하는 것입니다. 예제 사이트에는 XML 피드가 있습니다. http://feeds.feedburner.com/blogspot/RLXA?format=xml RSS 피드는 기계 가독성이 있으며 날짜는 일관된 형식입니다.


또한 Java를 사용한다고 말합니다. 자바의 날짜 분석 라이브러리가 매우 유연하지 않다는 것을 알게되었습니다. 그들은 파싱하기 전에 날짜의 정확한 형식을 알도록 강제합니다. 나는 당신이 시도 할 수있는 무료 오픈 소스 유연한 날짜 시간 파서를 작성했다 : http://ostermiller.org/utils/DateTimeParse.html 페이지에서 날짜를 찾았 으면 (어쩌면 "게시 된"이후에 나오는 것을 보면서), 나의 유연한 파서를 사용하여 날짜를 파싱 할 수있다. 다양한 형식으로 제공됩니다.

관련 문제