학술 프로젝트의 경우 보험 회사의 고객 데이터베이스를 분석해야합니다. 이 보험 회사는 먼저 몇 가지 제안을하기 위해 회사를 떠나는 고객을 분류하는 몇 가지 사항을 확인하고자합니다. 다음 고객은 업소 또는 교차 판매를 결정할 고객을 알고 싶습니다 보험 청구 측면에서 위험한 고객을 찾는 것.고객 이탈 분류
고객 취소가 가장 중요한 것 같아서 초점을 맞추고 있습니다. 보험 회사가 제공
속성은 다음과 같습니다
에 대한번들/번들, 정책 상태, 정책 유형, 정책 조합, 발행 일자, 유효 일자, 만기 일자, 정책 기간, 대출 기간, 취소 날짜, 이유 취소, 총 프리미엄, 분배기 프리미엄, 파트너 ID, 에이전시 ID, 국가 기관, 존 ID, 에이전시 잠재력, 성 계약자, 생년 계약자, 직업 계약자, 성 피보험자, 고용 보험, 출생 년도 피보험자, 연도 클레임, 클레임 상태, 클레임 제공, 보상 지급
데이터베이스는 ~ 200k 개의 레코드로 구성되며 일부 특성에는 많은 누락 값이 있습니다. 데이터 마이닝에 Rapid Miner를 사용하기 시작했습니다. 데이터 세트를 약간 지우고 일관성이 없거나 잘못된 값을 제거했습니다.
그런 다음 의사 결정 트리를 적용하고 isCanceled라는 Policy Status (발급, 갱신 또는 취소 할 수 있음)에서 파생 된 새 속성을 추가하고이를 의사 결정 트리의 레이블로 사용했습니다. 결정 트리의 모든 매개 변수를 변경하려고 시도했지만, 1 개의 리프 노드와 스플릿이없는 트리 또는 2 개의 거의 동일한 번호 인스턴스가있는 리프 노드를 가지기 때문에 완전히 관련이없는 트리를 얻습니다. 수업. 정말 실망 스럽습니다.
나는 churn 분석을하는 데 필요한 일반적인 절차가 무엇인지 알고 싶습니다. 아마도 Rapid Miner를 사용하고 있습니다. 아무도 도와 줄 수 없습니까?