보험 정책에 대한 정보가 들어있는 데이터베이스에서 데이터 마이닝 작업을 수행해야합니다. 각 튜플은 발행 한 에이전시, 참조하는 고객 및 기타 필드에 관한 정보와 함께 단일 정책에 대한 데이터를 나타냅니다. 그것은 hypotetical 테이블 정책, 고객 및 대행사 사이의 제품과 같습니다. 해당 필드는 다음과 같습니다 :대형 데이터베이스에서 작고 특이한 하위 집합을 분류하는 방법은 무엇입니까?
정책 유형, ID 번호, 정책 상태, 제품 설명, 제품 조합, 발행일, 발효 일, 만기일, 정책 기간, 대출 기간, 취소 일, 취소 사유, 총 프리미엄, 출생 연도 계약자, 직업 계약자, 성 피보험자, 고용 보험, 출생 년도 피보험자, 제품 영역, 법적 형식, ID 청구, 연도 청구, 상태 클레임, 지급 클레임, 지급 요청
이것은 학업 과제이며 우리 교수는 우리가 해지 비율, 교차 판매 및 상향 판매를 확인하기를 원합니다. 나는 현장에 들어가기가 쉽지 않아 위키피디아에서이 용어들을 찾았다. 나는 해지율로 시작했고,이 경우 고객의 정책 상태가 "취소됨"으로 설정되고 취소 이유가 "고객 취소"인 고객의 속성을 특성화해야하는 것으로 보입니다.
Rapid Miner를 사용하여 의사 결정 트리 및 규칙 마이닝을 적용하려고했지만 관심 대상 하위 집합이 너무 작기 때문에 출력 모델이 전반적인 정확도가 좋음에도 불구하고 취소 된 정책을 예측할 때 매우 정확하지 않았습니다. 이는 취소 된 정책의 하위 집합이 실제로 작기 때문에 발생합니다. 나는 또한 취소 된 정책을 잘못 분류하는 비용이 다른 것 (백만 배 이상)과 비교할 때 너무 높다는 주어진 비용 매트릭스를 가진 MetaCost 연산자를 적용하려고 시도했지만, 결과를 전혀 변경하지 않았습니다.
지금 가장 좋은 옵션은 규칙 마이닝에 연속 커버링 알고리즘을 사용하는 것이지만 신속한 광부는 구현하지 않으므로 수동으로 코딩해야합니다.
취소 된 정책의 작은 하위 집합에 대한 좋은 모델을 작성하여 앞으로 정책을 취소 할 가능성이있는 고객을 식별하는 데 사용할 수있는 제안이 있으십니까?
N.B .: 익명으로 처리되었지만 실제 출처에서 왔기 때문에 데이터베이스 또는 모든 데이터를 공개 할 수 없습니다.
예, Navie Bayes도 사용해 보았습니다. 전체 데이터 세트에서 시작하여 모델을 생성 한 다음 해당 모델이 내가 관심을 갖고있는 부분 집합을 얼마나 잘 분류하고 정확도가 5 % 미만인지를 측정했습니다. – Totem
오늘 오후에 다시 시도해 보았습니다. 약간의 전처리 과정을 거친 후에 놀랍게도 좋은 모델을 얻었습니다 (99.95 %의 정확도, 계층화 된 샘플에 대한 교육). – Totem