2013-06-25 4 views
0

Mahout의 선호도 값에 대한 의문점이 있습니다. Mahout in Action에서 다음과 같이 말합니다 :부정적인 선호도 값없이 Mahout의 권장 사항

더 큰 값이 보다 강한 긍정적 인 선호가있는 한 환경 설정 값은 아무 것이나 될 수 있습니다. 예를 들어,이 값은 으로 1에서 5까지의 비율로 표시 될 수 있습니다. 여기서 1은 사용자가 이 표시 할 수없는 항목을 나타내고 5는 즐겨 찾기를 나타냅니다.

추천인은 더 작은 값을 항상 부정적인 선호도 (좋아하지 않음)로 해석한다는 의미입니까?

부정적인 환경 설정이없는 권장 사항을 만들려고합니다. 나는 선호도가 전혀 없다는 것을 의미하지만, 다른 가중치 측정 기준 (클릭 수/수정 수, 편집 량, 편집 방법 등)에 따라 파생시킬 수 있습니다. 그러나 구현 한 사용자가 일부 페이지를 편집했을 때 사용자가 페이지를 싫어하는 것을 의미하지는 않지만 일부 금액으로 좋아한다는 뜻입니다 (위에서 설명한대로 선호도가 높습니다).

부울 기본 설정 (Log-likelehood 및 Tanimoto 유사성) 만 사용했지만 성능이 좋지 않으며 대부분의 경우 권장 사항을 생성 할 수 없습니다 (이후 무어는 50 %).

환경 설정을 얻기 위해 숫자를 사용하고 싶으므로 권장 사항이 더 좋을지 모르지만 방법이 확실하지 않습니다. 위의 5에서 10까지의 선호도 값을 얻으려고 시도했지만 모든 사용자는 인공 항목 (선호하지 않음을 의미)에 대해 1의 기본 설정 값을 갖습니다. 그러나 이것은 모든 사용자가 동일한 항목을 싫어한다는 것을 의미하므로 좋은 접근 방법이 아니라고 생각합니다.

"긍정"(선호) 환경 설정 값만 갖는 사용자 기반 및 항목 기반 알고리즘을 적용하려면 어떻게해야합니까?

+0

R에서 추천 패키지를 시도해 볼 수 있습니다. – Swamy

+0

제안을받지 못했습니다. R의 추천 패키지는 무엇입니까? 패키지의 알고리즘을 의미합니까 : org.apache.mahout.cf.taste.recommender? –

답변

1

당신이 시도해야합니다

  • ParallelALSFactorizationJob이 (하둡 기반) 암시 적 선호
  • 또는 (기반 하둡되지 않음) SVDRecommender 함께 암시 선호 ALSWRFactorizer (내 생각은이 비 하둡 암시 환경 변종입니다 mahout-0에서만 사용 가능합니다.8),

이 항목에서 사용자 환경 설정에 할당하는 번호는 연관성이 얼마나 강하며 등급이 아닌지를 나타내는 것이므로 긍정적 인 연관성을 갖고 있으며 강도가 다른 것입니다. 이 방법을 사용하면보기, 편집, 클릭 등과 같은 다양한 상호 작용을 모델링 할 수 있습니다. 각 기능에 할당 된 강도는 특정 비즈니스에 따라 달라질 수 있습니다.

이 프레젠테이션 (link)은 어떤 일이 발생했는지 대략적인 정보를 제공합니다. 또한이 논문 (link)은 인수 분해자의 암시 적 피드백 변형을 설명합니다. (이들은 동일하며 하나는 그냥 hadoop로 확장하려는 의미입니다)

+0

Julian에게 조언 해 주셔서 감사합니다. 나는 이것을 확실히 시도 할 것이다. 당신이 말하는 논문에 대한 링크를 보내 주시겠습니까? (답장에 링크가 없습니다) –

+0

Woops! 숀이 지적한 바와 같이 너무 희박한 데이터의 결과와 사용 된 값이 아닌 것으로 보아 생성 된 권장 사항의 수와 관련하여 –

+0

Btw를 추가하기 위해 내 응답을 편집했습니다. –

2

당신이 의미하는 바가 있다면, 긍정적 인 행동만을 근거로 합당한 결과를 얻을 수 있습니까? 그렇다면 물론입니다. 이것은 일반적인 경우입니다. 기본 설정 값을 해석하는 방법은 사용하는 알고리즘에 따라 다르지만 모든 알고리즘에 대해 모든 긍정적 인 값으로 모든 긍정적 인 동작을 인코딩하는 데는 아무런 문제가 없습니다. 이것은 쉬운 경우입니다. "1"은 본질적으로 부정적인 등급이 아닙니다.

유사성 메트릭에 관한 요점은 값과 관련이 없습니다. 데이터가 매우 희박한 것 같습니다. 이것은 별개의 문제입니다.

나머지 나는 이해할 수 없다. 사용하는 값은 도메인에 따라 다릅니다. 나는 그것들을 그들의 "힘"이나 가치에 비례하도록 만들 것이다. 예를 들어 동영상보기가 동영상 공유보다 20 배 더 자주 발생하면 동영상 공유의 가치를 클릭보다 20 배나 높은 행동으로 지정할 수 있습니다. 시작하기에 알맞은 곳입니다.

+0

감사합니다. Sean, Mahout이 선호도가 가장 작거나 평균보다 작은 선호도 값을 즐겨 찾기로 해석하고 가장 큰 (또는 평균보다 큰) 값을 즐겨 찾기로 해석하는지 알고 싶습니다. 그러나 나는 당신의 마지막 부분을 얻지 못했습니다. 선호도 값을 도출 할 때 주식이 더 많은 가중치를 얻고이 예에서 클릭을해야한다고 말합니까? (공유보다 클릭 수가 많으면)? 나는 다른 방법으로 생각하고 있었다. 사용자가이 이동을 더 많이 본 경우 더 좋아하지만 더 이상 좋아하지는 않지만 한 번만 공유하면 (내 사례의 공유가 좋은 사례가 아닐 수도 있음)이 경우 강도가 더 작습니다. –

+0

음, 값이 클수록 더 강하고 긍정적 인 연관성을 의미합니다. 특정 값에 대한 특별한 절대적인 의미는 없습니다. 많은 클릭이 하나 이상의 공유를 의미 할 수도 있습니다. 예를 들어, 하나의 공유는 하나 이상의 클릭을 의미합니다. 이것은 당신이 모델링하고 평가할 것입니다. –

+0

예, 이제 어떤 의미인지 알 수 있습니다. 고마워요 :) –