1
trainImplicit를 사용하여 구매 내역을 기반으로 추천 시스템을 만들려고합니다. 내 입력 내용은 도메인 [1, + inf] (조회수와 구매액의 합계)입니다.Spark MLlib 이해 ALS.trainImplicit 입력 형식
그래서 입력 된 RDD의 요소는 다음과 같습니다. [(user_id,item_id),rating] --> [(123,5564),6]
- 사용자 (id = 123)가 항목 (id = 5564)과 6 회 상호 작용했습니다.
[(user_id,item_id),rating] --> [(123,2222),0]
과 같은 RDD 요소를 추가해야합니까? 주어진 사용자가 주어진 항목과 상호 작용 한 적이 없거나 ALS.implicitTrain이 암시 적으로이 작업을 수행했음을 의미합니까?
데이터 집합에서 0으로 훈련 된 모델이 0이 아닌 데이터 집합에서 훈련 된 모델과 거의 동일한 권장 사항을 제공한다는 것을 의미합니까? 또는이 추가 0은 결과에 영향을 미칩니 까? – Masha
암시 적으로 결과에 영향을주지 않아야하며, 명시 적으로 결과에 상당한 영향을 미칩니다. – user7337271