나는 클라이언트로부터이 정보에 대한 요청에 응답하여 실시간으로 여러 웹 사이트에서 정보를 동시에 가져 오는 크롤러를 구축 중입니다. 나는 10-20 개의 웹 사이트에서 특정 페이지를 요청하고 정보 내용을 분석하여 가능한 한 빨리이 정보를 클라이언트에게 반환해야합니다. 비동기 적으로 수행하려고하므로 클라이언트는 준비가 완료되는 즉시 첫 번째 결과를 표시하고 다른 요청은 아직 보류 중입니다.실시간/병렬 HTTP 크롤러의 라이브러리/플랫폼이 좋습니까?
저는 루비 배경을 가지고 있기 때문에 루비에서 솔루션을 빌드하는 것을 선호합니다 - 그러나 병렬성과 속도는 루비가 뛰어나지 않는 것으로 알려져 있습니다. 나는 EventMachine과 Typhoeus과 같은 라이브러리가 그것을 치료할 수 있다고 믿지만, 나는 또한 꽤 잘 알고 있고 이런 종류의 것을 위해 만들어 졌기 때문에 나는 node.js을 강력하게 고려하고있다.
무엇을 선택하든 결과를 클라이언트에게 전달하는 효율적인 방법이 필요합니다. 나는 일반 AJAX (서버 폴링이 필요함), 웹 소켓 (예 : 이전 브라우저의 폴백) 및 Cramp, Juggernaut 및 Pusher과 같은 지속적인 클라이언트/서버 통신을위한 특정 솔루션을 고려하고 있습니다.
누구나 공유하고 싶은 경험이나 권장 사항이 있습니까?
일을 방해 없음 브라우저 창은 진정한 멀티 스레드, 나는 생각하지만 1.9이 작동 것 게다가 – rogerdpack