2011-03-29 3 views
2

사용자 CF, 항목 CF가 권장 할만한 데이터 양은 어느 정도입니까?사용자 기반 CF 또는 항목 기반 CF가 권장 사항을 제공하는 데 필요한 데이터 양은 어느 정도입니까?

수동으로 작은 데이터 세트를 만들었으므로 알고리즘이 어떻게 작동하는지 잘 이해할 수 있습니다.
내가 만든 작은 데이터 세트에서 Slope-One이 권장 사항을 제공 할 수 있음을 발견했습니다. 사용자 CF 또는 항목 CF는 권장 사항을 제공 할 수 없습니다.

이유가 무엇입니까?
데이터 양의 임계 값은 얼마입니까?

답변

1

사용자 및 항목 기반 CF에서 데이터 세트의 크기는 실제로 작을 수 있습니다. 중요한 부분은 데이터 집합의 항목과 사용자 간의 매핑 빈도입니다. 사용자가 데이터 세트에 한 번만 존재하는 경우, 사용자 기반 cf가 권장 사항을 제공하지 않을 가능성이 높습니다. 하나의 공통 항목이 두 사용자가 이웃이되기 위해 임계 값 유사성을 제공하지 않기 때문입니다. 위의 설명은 그 예입니다. 1000 데이터와 같은 작은 데이터 세트의 경우, 두 추천 자 모두 가장 유사한 항목에 대한 대답을 제공하고 방법을 추천합니다. 그러나 훨씬 작은 데이터 세트의 경우 쿼리 된 사용자/항목 ID에 대한 정보가 충분한 지 여부에 관계없이 수동으로 데이터를 제어하는 ​​것이 유용합니다. this 링크에서 매우 작은 제어 데이터 세트를 사용하여 항목 기반 CF를 만들고 그 작동 방식을 찾을 수 있습니다. 이 답변이 도움이되기를 바랍니다.

+0

대단히 감사합니다. 나는 링크를 살펴볼 것이다. –

1

Movielens, netflix, jester, kddcup 데이터 세트는 모두 모두에게 열려 있습니다. 당신은 문제가 데이터 집합을 받고있는 경우 , 같은 어쩌면 작은 데이터 세트, 사용자 CF 및 항목 CF를 들어이 http://code.google.com/p/recsyscode/wiki/dataset

1
  1. 을 확인하지만, 대용량 데이터에 대한 사용자 수가 항목의 수보다 큰 경우 (예를 들어, 넷플 릭스 데이터 세트 및 야후 kddcup2011 데이터 집합), 항목 CF는 사용자 CF보다 훨씬 빠릅니다.

  2. 상위 N 권장 결과의 경우 사용자 CF와 항목 CF의 정확도는 동일하지만 적용 범위가 다르므로 사용자 CF 권장은 긴 꼬리 항목을 추천하는 데는 좋지만 항목 CF는 더 우수한 다양성을 갖습니다.

관련 문제