2014-12-20 5 views

답변

0

데이터에는 어떤 것이 있습니까? 구매 나 조회수 또는 평점과 같은 상호 작용 데이터입니까?

그렇다면 아이템 유사성 또는 스파크 - 아이템 유사성이 작동하지만 피드 대신 항목 및 사용자 ID를 교환하십시오. 데이터를 사용자별로 한 행으로 구성된 희소 행렬로 인코딩하는 경우 rowsimilarity 또는 spark-rowsimilarity를 ​​사용할 수도 있습니다.

hadoop 작업의 경우 ID는 Mahout ID, 항목 및 사용자에 대한 0이 아닌 행 및 열 번호 여야합니다. Spark 작업의 경우 원하는 ID를 사용할 수 있습니다.이 ID는 텍스트로 읽히므로 고유 한 문자열이어야합니다.

피어슨은 hadoop 작업에서만 지원됩니다. 스파크 작업은 로그 가능성 (log-likelihood) 비율 만 사용합니다. 협업 필터링 응용 프로그램에서 LLR은 다른 "유사성"메트릭보다 거의 항상 우수합니다.

관련 문제