2016-06-28 3 views
-1

저는 지금까지 데이터 세트로 csv 파일을 기반으로 모든 것을 빌드하고 배포하는 몇 가지 추천 엔진을 찾을 수 있습니다. 따라서 약 1MB의 데이터와 하루에 약 3700 명의 사용자가있는 경우 좋습니다. 필자의 경우 회사는 약 1 M의 활성 항목, 일일 약 4000 명의 활성 사용자 (평균) 및 주당 평균 약 4.5 M 페이지 방문 (평균)이 있습니다.Apache Spark에서 실시간 추천 시스템을 구축하려면 어떻게해야합니까?

기억 이음새에있는 품목을 건설하고, 훈련하고 recommand에 의하여 이렇게 나쁘다, 그래서 나는 recommander 엔진 그러나 일종의 실시간을 건설하기 위하여 생각하고있다! 어떻게? 그게 내가 원하는거야, 어쩌면 데이터를 훈련하고 elasticsearch 또는 recommand 항목과 비슷한 인덱서에 배포 할 수 있습니다.

어떤 제안이 있습니까?

+0

스파크는 여전히 메모리에 맞지 않는 데이터를 처리 할 수 ​​있습니다.이 [article] (https :///0x0fff.com/spark-memory-management/)을 본 적이 있으십니까? –

답변

1

몇 가지 사항을 고려해야합니다. 항목에서 특징을 추출하는 기계 학습을 사용

  • ,이 가능성이 불꽃을 사용하여 알고리즘을
  • 을 확인하기 위해 AB 테스트를 사용하여 스트림
  • 을 클릭 다시
  • 그 항목에 사용 행동을 분석 다시 포함 재교육 할 것 스트림
관련 문제