2009-11-11 6 views
0

대부분의 가장 큰 뉴스 출처에서 뉴스 기사를 크롤링 할 표준/API가 있는지 아는 사람이 있습니까?크롤링 뉴스 기사

저는 색인을 생성하기 위해 rss를 사용하고 있습니다. 그러나 나는 그것들을 단지 그들의 제목보다 더 많은 자료로 분류하고 싶습니다.

답변

-1

있다 , 당신은 고려할 수 있었다 Newsriver. 구조화 된 온라인 뉴스 기사를 검색하는 것은 매우 최근의 API입니다.

Newsriver은 많은 온라인 뉴스 매체를 다루며 완전히 구성 할 수 있습니다.

서비스 API로 크롤링을 사용의 가장 큰 장점은 더 이상 다음과 같은 측면을 관리 할 필요가 없다는 것입니다 :

  1. 찾기 및 뉴스 게시자 RSS 피드 및 웹 사이트 URL을 유지한다.
  2. URL 정규화, 회전 및 표준화.
  3. 요청 제한 (불건전 메시지 신고를 방지하기 위해).
  4. 정적 HTML 크롤링 및 동적 (Ajax) 크롤링.
  5. 내용 추출, 주요 텍스트 등
  6. 메타 데이터 추출 (예를 들어 언어, 위치, 키워드 등)
  7. 중복 뉴스 기사 탐지 이미지, 비디오,지도, 트윗, 같은 포함 된 개체.
1

는 당신이 API를 찾고 있다면 :

는 API를 뉴스 검색을 사용하거나 스트리밍도 RSS specifications

+0

왜 이것을 다운 그레이드 했습니까? – altabq