-1

학술 프로젝트의 경우 보험 회사의 고객 데이터베이스를 분석해야합니다. 이 보험 회사는 먼저 몇 가지 제안을하기 위해 회사를 떠나는 고객을 분류하는 몇 가지 사항을 확인하고자합니다. 다음 고객은 업소 또는 교차 판매를 결정할 고객을 알고 싶습니다 보험 청구 측면에서 위험한 고객을 찾는 것.고객 이탈 분류

고객 취소가 가장 중요한 것 같아서 초점을 맞추고 있습니다. 보험 회사가 제공

속성은 다음과 같습니다

에 대한

번들/번들, 정책 상태, 정책 유형, 정책 조합, 발행 일자, 유효 일자, 만기 일자, 정책 기간, ​​대출 기간, ​​취소 날짜, 이유 취소, 총 프리미엄, 분배기 프리미엄, 파트너 ID, 에이전시 ID, 국가 기관, 존 ID, 에이전시 잠재력, 성 계약자, 생년 계약자, 직업 계약자, 성 피보험자, 고용 보험, 출생 년도 피보험자, 연도 클레임, 클레임 상태, 클레임 제공, 보상 지급

데이터베이스는 ~ 200k 개의 레코드로 구성되며 일부 특성에는 많은 누락 값이 있습니다. 데이터 마이닝에 Rapid Miner를 사용하기 시작했습니다. 데이터 세트를 약간 지우고 일관성이 없거나 잘못된 값을 제거했습니다.

그런 다음 의사 결정 트리를 적용하고 isCanceled라는 Policy Status (발급, 갱신 또는 취소 할 수 있음)에서 파생 된 새 속성을 추가하고이를 의사 결정 트리의 레이블로 사용했습니다. 결정 트리의 모든 매개 변수를 변경하려고 시도했지만, 1 개의 리프 노드와 스플릿이없는 트리 또는 2 개의 거의 동일한 번호 인스턴스가있는 리프 노드를 가지기 때문에 완전히 관련이없는 트리를 얻습니다. 수업. 정말 실망 스럽습니다.

나는 churn 분석을하는 데 필요한 일반적인 절차가 무엇인지 알고 싶습니다. 아마도 Rapid Miner를 사용하고 있습니다. 아무도 도와 줄 수 없습니까?

답변

1

대부분의 데이터 마이닝 또는 기계 학습 활동은 대부분의 시간을 정리, 정리, 서식 지정 및 데이터 이해에 소비합니다.

이 작업이 수행되었다고 가정하면 일부 속성 또는 모든 속성과 예측되는 레이블간에 관계가있는 한 일종의 변동 분석을 수행 할 수 있습니다.

물론 이러한 관계를 확인할 수있는 방법은 많지만 빠른 방법은 Weight By 연산자 중 하나를 사용하는 것입니다. 이렇게하면 각 속성에 대한 가중치 세트가 출력되어 레이블에 잠재적으로 더 많은 예측 가능성을 부여 할 수 있습니다.

가치 속성이 있다고 판단되면 의사 결정 트리 또는 다른 연산자를 사용하여 예측에 사용할 수있는 모델을 만들 수 있습니다. 가지고있는 속성은 명목 형과 숫자 형이 혼합되어 있으므로 의사 결정 트리가 작동하며 어쨌든이 연산자는 시각화하기가 쉽습니다. 까다로운 부분은 바로 매개 변수를 얻는 것이고이를 수행하는 방법은 매개 변수가 다양 할 때 보이지 않는 데이터에서 모델의 성능을 관찰하는 것입니다. Loop Parameters 운영자가이를 도와 드릴 수 있습니다.