웹 크롤러에서 원하는 특정 정보를 찾고 반환합니다. 이것은 매일 실행됩니다.어느 쪽이 더 효율적입니까? 내 DB를 치거나 여분의 웹 크롤링을 수행하고 배열을 치는 중 어느 것입니까?
문제점은 내 크롤러가 두 가지 작업을 수행해야한다는 것입니다.
- 크롤링해야하는 링크를 가져옵니다.
- 해당 링크를 크롤링하고 DB에 푸시합니다.
# 1 문제는 총 700 개가 넘는 링크입니다. 이러한 링크는 매우 자주 변경되지 않습니다 - 한 달에 한 번?
하나의 옵션은 '링크 목록'에 대해 한 달에 한 번씩 별도의 크롤링을 수행하고 링크를 db로 덤프하는 것입니다.
그런 다음 매일 700 개의 링크 각각에 대해 크롤러가 db hit를 수행하게하십시오.
또는 크롤러 내에서 크롤링을 중첩 할 수 있습니다. 크롤러가 매주 실행될 때마다 (일별)이 700 개의 URL 목록을 업데이트하고 배열에 저장하고이 배열에서 가져옵니다. 각 링크를 크롤링합니다.
Heroku 또는 어느 호스트에 대해 더 효율적이며 세금이 적습니까?
자주 변경되지 않는 항목 : 크롤링 할 링크의 콘텐츠 또는 크롤링해야하는 링크 집합? 귀하의 질문이나 대안을 잘 모르겠습니다. – Phrogz
크롤링 링크 집합은 많이 변경되지 않습니다. – marcamillion
질문 : 로컬 데이터베이스에서 700 개의 행을 가져 오거나 해당 700 개의 적중을 반환하는 HTTP 요청을 수행하는 것이 "더 나은"것인가? – Phrogz