대형 데이터베이스에서 작고 특이한 하위 집합을 분류하는 방법은 무엇입니까?

보험 정책에 대한 정보가 들어있는 데이터베이스에서 데이터 마이닝 작업을 수행해야합니다. 각 튜플은 발행 한 에이전시, 참조하는 고객 및 기타 필드에 관한 정보와 함께 단일 정책에 대한 데이터를 나타냅니다. 그것은 hypotetical 테이블 정책, 고객 및 대행사 사이의 제품과 같습니다. 해당 필드는 다음과 같습니다 :대형 데이터베이스에서 작고 특이한 하위 집합을 분류하는 방법은 무엇입니까?

정책 유형, ID 번호, 정책 상태, 제품 설명, 제품 조합, 발행일, 발효 일, 만기일, 정책 기간, 대출 기간, 취소 일, 취소 사유, 총 프리미엄, 출생 연도 계약자, 직업 계약자, 성 피보험자, 고용 보험, 출생 년도 피보험자, 제품 영역, 법적 형식, ID 청구, 연도 청구, 상태 클레임, 지급 클레임, 지급 요청

이것은 학업 과제이며 우리 교수는 우리가 해지 비율, 교차 판매 및 상향 판매를 확인하기를 원합니다. 나는 현장에 들어가기가 쉽지 않아 위키피디아에서이 용어들을 찾았다. 나는 해지율로 시작했고,이 경우 고객의 정책 상태가 "취소됨"으로 설정되고 취소 이유가 "고객 취소"인 고객의 속성을 특성화해야하는 것으로 보입니다.

Rapid Miner를 사용하여 의사 결정 트리 및 규칙 마이닝을 적용하려고했지만 관심 대상 하위 집합이 너무 작기 때문에 출력 모델이 전반적인 정확도가 좋음에도 불구하고 취소 된 정책을 예측할 때 매우 정확하지 않았습니다. 이는 취소 된 정책의 하위 집합이 실제로 작기 때문에 발생합니다. 나는 또한 취소 된 정책을 잘못 분류하는 비용이 다른 것 (백만 배 이상)과 비교할 때 너무 높다는 주어진 비용 매트릭스를 가진 MetaCost 연산자를 적용하려고 시도했지만, 결과를 전혀 변경하지 않았습니다.

지금 가장 좋은 옵션은 규칙 마이닝에 연속 커버링 알고리즘을 사용하는 것이지만 신속한 광부는 구현하지 않으므로 수동으로 코딩해야합니다.

취소 된 정책의 작은 하위 집합에 대한 좋은 모델을 작성하여 앞으로 정책을 취소 할 가능성이있는 고객을 식별하는 데 사용할 수있는 제안이 있으십니까?

N.B .: 익명으로 처리되었지만 실제 출처에서 왔기 때문에 데이터베이스 또는 모든 데이터를 공개 할 수 없습니다.

출처

2013-06-02 Totem

Navie Bayes를 사용해 보셨습니까? 그것은 작은 데이터 집합과 잘 작동합니다. AODE와 같은 변형을 시도해 볼 수도 있습니다. Rapid Miner에서는 AODE를 사용할 수 없습니다. Rapid Miner에서 AODE에 액세스하려면 Weka 확장을 설치해야합니다.

출처

2013-06-04 07:27:11 Pradeep

예, Navie Bayes도 사용해 보았습니다. 전체 데이터 세트에서 시작하여 모델을 생성 한 다음 해당 모델이 내가 관심을 갖고있는 부분 집합을 얼마나 잘 분류하고 정확도가 5 % 미만인지를 측정했습니다. – Totem

오늘 오후에 다시 시도해 보았습니다. 약간의 전처리 과정을 거친 후에 놀랍게도 좋은 모델을 얻었습니다 (99.95 %의 정확도, 계층화 된 샘플에 대한 교육). – Totem

클래스 (취소됨/취소되지 않음)가 같은 크기가되도록 데이터 집합의 균형을 조정해야합니다. 이것은 (일시적으로) 많은 양의 데이터를 삭제한다는 것을 의미합니다.

잔액 레이블 확인란과 함께 샘플 연산자를 사용하여이 작업을 수행 할 수 있습니다.

출처

2013-06-04 18:16:48

아니요, 본질적으로 거의 샘플이 아닙니다. 휘젓다는 것은 항상 ... – Totem

예, 알겠습니다. 이것이 취소 된 것과 취소되지 않은 사이의 샘플 균형을 유지해야하는 이유입니다. 또한 속성 가중치를 사용하여 취소와 취소 사이의 중요한 판별자인 속성을 볼 수 있습니다. –

대형 데이터베이스에서 작고 특이한 하위 집합을 분류하는 방법은 무엇입니까?

답변

관련 문제