2016-12-28 1 views
1

trainImplicit를 사용하여 구매 내역을 기반으로 추천 시스템을 만들려고합니다. 내 입력 내용은 도메인 [1, + inf] (조회수와 구매액의 합계)입니다.Spark MLlib 이해 ALS.trainImplicit 입력 형식

그래서 입력 된 RDD의 요소는 다음과 같습니다. [(user_id,item_id),rating] --> [(123,5564),6] - 사용자 (id = 123)가 항목 (id = 5564)과 6 회 상호 작용했습니다.

[(user_id,item_id),rating] --> [(123,2222),0]과 같은 RDD 요소를 추가해야합니까? 주어진 사용자가 주어진 항목과 상호 작용 한 적이 없거나 ALS.implicitTrain이 암시 적으로이 작업을 수행했음을 의미합니까?

답변

0

실제로 (암시 적으로) 필요하지 않으며 (명시 적으로) 수행하지 않아야합니다. 따라서이 경우에는 실제로 가지고있는 데이터 만 저음으로 설정하십시오.

+0

데이터 집합에서 0으로 훈련 된 모델이 0이 아닌 데이터 집합에서 훈련 된 모델과 거의 동일한 권장 사항을 제공한다는 것을 의미합니까? 또는이 추가 0은 결과에 영향을 미칩니 까? – Masha

+0

암시 적으로 결과에 영향을주지 않아야하며, 명시 적으로 결과에 상당한 영향을 미칩니다. – user7337271

관련 문제