2016-12-20 1 views
0

저는 기계 학습 및 그 기술의 초보자입니다.비 텍스트 속성을 가진 유사 고객을 찾기위한 유사성 일치 기술

모델 구축에 대한 제안이 필요합니다. 다음은 문제 설명입니다. -

특정 회사의 모든 제품 (4 제품)을 소유 한 고객의 데이터 세트가 있습니다. X -이 세트를 Cust4라고 부릅니다.
같은 회사의 일부 제품 (3 개 제품)을 소유 한 다른 고객 데이터 세트 X -이 세트를 Cust3이라고 부릅니다.
두 데이터 세트 (텍스트 데이터 없음)에 대해 수많은 '범주'및 '숫자'속성을 수집했습니다. 나는 3 개 제품이 고객에 더 많은 것을 판매하고 싶은
때문에, (나는 그들에 다른 4 제품을 판매 같은 것) 등 가 Cust4 고객 세트에 비교 Cust3 고객을 얼마나 유사한 을 알고 싶습니다 Cust4 세트의 고객과 매우 유사한 고객에게만 판매합니다.

Cust3의 특정 테스트 고객이 예를 들어 70 %가 Cust4 세트 또는 80 %와 유사하다고 말하면 어떤 기법이 적합할까요? 지금까지

연구 -
나는 한 클래스 분류 문제로이 프레임하려고하고 하나의 클래스 분류 (R)에 특히 하나의 클래스 SVM으로 보았다. 이것은 모델을 작성하고 데이터를 분류하지만 현재는 확률 예측을 지원하지 않습니다 (R 패키지 e1071).

이런 종류의 문제에 도움이 될 수있는 다른 기술을 들여다 보면 도움이 될 것입니다. 모든 도움을 감사하십시오.

답변

0

코스의 경우, 이것은 cust4처럼 보이는 고객을 찾고 있기 때문에 하나의 클래스 분류 문제 (또는 비슷하게 보임)이며 네 번째 제품의 사전 확률이 없으므로 확률을 얻지 못합니다. 그러나 당신은 Cust3와 Cust4의 문자 사이의 유사성의 거리를 얻을 수 있습니다.

클러스터 알고리즘 : 1. 클러스터 (하나 이상의 클러스터에서)에 대한 클러스터링을 수행하면 하나 이상의 중도 (클러스터 중심)가 표시됩니다.

2. Cust3의 각 고객에 대해이 고객 및 각 중심으로부터의 거리를 계산합니다 (클러스터링에 사용 된 동일한 변수를 사용해야합니다). 거리가 특정 임계 값보다 큰 경우 따라서이 고객은 product4에 식욕을 돋우는 것입니다.

k 가까운 이웃과 같은 다른 기술이 있지만 계산 시간이 매우 비쌉니다.

희망은 도움이 될 것입니다.

+0

감사합니다. @raait. 나는 당신이 제안한 클러스터링 방법을 시도 할 것입니다. 특정 방법을 좀더 정교하게 만들 수 있다면 크게 도움이 될 것입니다. – Uno

1

가우스 혼합 모델을 사용해보십시오. 각 클래스에 대해 별도의 GMM을 교육하면 입력 샘플에 대해 해당 모델에서 우도 점수를 얻을 수 있습니다.

+0

나는이 기술들에 익숙하지 않다. 나는 그것을 시험해보고 싶다.그래서, 귀하의 제안에 따라 하나의 GMM (고객 클래스가 하나 뿐이므로)이 될 것이며 Cust3에서 각 고객에 대한 가능성 점수를 얻고 일부 기준에 따라 선택합니다. 그게 맞습니까? – Uno