2011-10-02 2 views
1

나는 마호 타트를 처음 사용했습니다.mahout collaborative-filtering 입력 바이너리 데이터 세트

나는 loglikelihood 유사성 측정과 함께 이미 mahout의 아이템 기반 알고리즘을 사용했다. 지난 스레드에서 추천자가 이진 값 (싫음)을 처리 할 때 loglikelihood 유사성을 사용하는 것이 더 낫다는 것을 읽었습니다. 나는 또한 mahout가 3 개의 가치 (싫어하는 것, 존재하지 않는 것)를 사용한다는 것을 읽었다. 그래서 나는 입력 데이터 셋 파일의 형식에 대해 조금 혼란스러워합니다.

입력 파일 형식이 이와 같아야합니까?

userId, itemID 

여기서 기본 설정은 1입니까?

싫어요 정보를 데이터 집합에 넣을 수있는 방법이 있는지 알고 싶습니다.

I, 예를 들어, 입력 데이터 집합 파일을 제외하고 본 같을 것이다 :

사용자 ID, 상품 ID, binaryPreference 1 15 1.0

2, 35, 0

1 25 , 1.0 ......

도와주세요! 고맙습니다!

답변

0

어디서 읽었는지 확실하지 않지만 잘못되었습니다. Mahout에는 3 상태 "부울"환경 설정이 없습니다. 데이터에 등급이 있거나 그렇지 않은 경우 부울 환경 설정이 있거나 존재하지 않는 환경 설정이 있습니다. 세 번째 상태가 없습니다.

이상하게 보아도 나는 "좋아"하고 "싫어하는"사람을 시작으로 취급하는 것이 좋습니다. 잘 작동 할 수도 있습니다.

나중에 인공 등급을 -1 대 1로 표시하거나 그 사이에 싫어하고 음영을 나타낼 수 있습니다. 그런 다음 유클리드 거리와 같은 다른 유사성 측정 항목을 시도해 볼 수 있습니다.

세 번째 가능성은 "추천"연결이 있고 다른 하나는 "싫어함"연결이있는 데이터 모델을 가지고있는 두 명의 권장자를 만드는 것입니다. "좋아하는"추천인의 결과를 사용하고 '싫어하는'추천인의 결과를 기준으로 결과를 필터링하거나 수정할 수 있습니다. 이것은 약간의 코딩이 필요하지만 어렵지 않습니다.

[email protected]이 작업을 수행하는 것이 좋습니다.