나는이 디자인 질문을 명중 할 때 나는 PHP에있는 긁는 도구 그리고 거미를 건축하고있다. 나는 크롤링과 긁기 작업 (대부분의 전문 시스템이하는 것처럼)을 분리하는 시스템과 거미가 기어 다니는 것처럼 긁는 시스템을 만드는 것 사이의 장단점에 대해 궁금해하고있었습니다. 내가 생각할 수있는 유일한 점은 큐를 분할하여 큐를 사용하면 다음 페이지가 긁힐지를 대기열에 요청해야하는 여러 개의 스크래퍼가 있으면 작업을 더 잘 병렬화 할 수 있다는 것입니다. 다른 트레이드 오프에 대해 생각해 본 사람이이 두 프로그램으로 구분되는 주된 이유를 설명 할 수 있습니까?거미와 긁는 도구 건축술
참고 : 크롤링 순서는 두 경우 모두 동일하지만 페이지가 당겨지는 유일한 차이점이 있습니다.
"이들이 일반적으로 두 개의 프로그램으로 분리되는 주요 이유"- 다른 작업이기 때문에? – zerkms
당신은 거미가 쉽게 페이지의 링크로 이동하기 전에 페이지를 당기고 처리 할 수 있습니다. 그러나 대부분의 스파이더는 링크를 다른 프로그램 (스크레이퍼)의 큐에 넣기 만하면 나중에 가져올 수 있습니다. 어떤 것이 든 더 복잡하고 더 많은 페이지 요청을 포함하지만 이것은 대부분의 시스템이 작동하는 방식입니다. 왜? – hackartist