0

현재 내 대학의 특정 프로젝트를 운영하고 있습니다. 내가 프로젝트에서 수행하게 될 것은 제휴 규칙 마이닝으로 교차 판매 모델을 구축하는 것입니다.연관 규칙 마이닝 (신뢰 및 리프트)

결과적으로 규칙이 많았지 만 순위를 매기는 방법을 잘 모릅니다.

더 좋을 거라 어떤 옵션 옵션 1

경우 : Confidence=20% Lift= 5

옵션 2 : Confidence = 50% Lift = 2

나는 자신감이 중요 알고,하지만 난 Lift뿐만 아니라 매우 중요 들었습니다. 나는 더 많은 양력을 위해 자신감을 희생하거나 균형을 유지해야합니까? 그 목적은 연관 규칙 마이닝의 무엇에 따라 달라집니다

+0

음. 질문은 흥미 롭지 만 (솔루션을 모르겠다) 사이트는 코딩 문제에 관한 것이지 과학 뒤에있는 문제는 아닙니다. 그러나 사람들이 해결책을 찾으면 그것에 대해 더 자세히 읽고 싶습니다. 이것을 발견 : http://analyticstrainings.com/?p=151 – pinegulf

답변

0

은 다음과 같습니다

예컨대 : 항목 집합 {(a, b, c)}: (800/100.000) * 100 = 0,8%

- 100.000 transactions' database 

- 2.000 tranasctions contain {(a, b)} 

- 800 transactions contain {(a, b, c)} 

지원.

항목 집합 지원은 데이터베이스의 임의 트랜잭션이 항목 집합의 항목을 얼마나 자주 포함하는지 나타냅니다.


신뢰 규칙 {(a, b)} -> {(c)}: (800/2000) * 100 = 40%.

연관 규칙의 신뢰도는 연관 규칙의 결과를 포함하는 데이터베이스의 임의의 트랜잭션이 연관 규칙의 발췌를 얼마나 자주 포함하는지 나타냅니다.


연관 규칙 상승 {(a, b)} -> {(c)}: 40/((5.000/100.000) * 100) = 8.

리프트는 연관 규칙의 예상 신뢰도에 대한 신뢰도의 비율입니다. 협회 규칙의 신뢰도는 40 %입니다. 이 컨텍스트에서 예상되는 신뢰는 트랜잭션에서 {(a, b)}이 발생하면 증가하지 않는다는 것을 의미합니다.이 트랜잭션의 균등 성은 {(c)}입니다.

데이터베이스의 5.000 트랜잭션에서 {(c)}이 발생하면 예상 신뢰도는 (100.000/5.000) * 100 = 5%입니다.

asscoiation rule의 상승 값이 1보다 크면 연결 규칙이 유용함을 나타냅니다. 리프트 값이보다 작거나 같으면 1은 연결 규칙이 유용하지 않음을 나타냅니다. 이 경우 전제와 같고 연계 규칙의 결과는 서로 독립적입니다. 트랜잭션이 ({c})을 연관시키는 ({a, b})을 보유하고있는 경우 ({a, b})이 우연히 그 그룹에 더 연관되지 않는다는 연결 규칙 표시의 유용성.

데이터베이스의 100.000 건의 트랜잭션에 {(c)}이 포함 된 경우 {(c)}의 예상 값은 (100.000/100.000) * 100 = 100%입니다. 리프트는 40/100 = 0,4입니다. 이것은 1보다 적습니다.따라서 연결 규칙 {(a, b)} -> {(c)}은 유용하지 않습니다. {(c)}은 모든 거래에 해당됩니다. 트랜잭션에 {(a, b)}이 있으면 {(c)}이됩니다. 협회는 사용하지 않는다.


여기서 원은 닫힙니다. 연관 규칙 마이닝의 목적에 따라 다릅니다. 여분의 강한 연관성 규칙을 만드는 것이 목표라면 자신감은 더욱 높아질 필요가 있습니다. 여분의 유용한 asscociation 규칙을 만드는 것이 목적이라면 리프트가 너무 높아야합니다.

관련 문제