DMwR 패키지에 포함 된 Smote를 사용하여 데이터 세트에서 오버 샘플링을 방금했습니다.Smote가 오버 샘플링을 만들지 못합니다.
내 데이터 집합은 두 클래스로 구성됩니다. 원래 분포는 그래서,이 오버 샘플링으로 구분 한 62 대 12 :
newData <- SMOTE(Score ~ ., data, k=3, perc.over = 400,perc.under=150)
지금을, 분포는 60 그러나
72 대 나는 'newData의'데이터 집합을 표시 할 때, 내가 어떻게 쳐서을 발견하다 오버 샘플링을 만들었고 일부 샘플이 반복되었습니다.
예를 들어 샘플 번호 24는 24.1, 24.2 및 24.3으로 나타납니다.
이 정보가 맞습니까? 이것은 분류 자 (classification)가 테스트에 존재할 데이터가있는 모델을 학습 할 것이기 때문에 분류에 직접 영향을 미치므로 분류에서 합법적이지 않습니다.
편집 : 내가 제대로 내 문제를 설명하지 않았다고 생각 :
아시다시피, 강타는 오버 샘플링하는 기술입니다. 원래 샘플에서 새 샘플을 작성하여 해당 샘플의 기능 값을 수정합니다. I는 쳐서 의해 생성 내 새로운 데이터를 표시 할 때, I 이것을 얻기 :
(이 값은 특징의 값은)
Sample50을 : 1.8787547 0.19847987 -0.0105946940 4.420207 4.660536 1.0936388 0.5312777 0.07171645 0.008043167샘플 50.1 : 1.8787547을 0.19847987 -0.0105946940 4.420207 4.660536 1.0936388 0.5312777 0.07171645
샘플 50은 원래의 데이터 세트에 속한다. 샘플 50.1은 SMOTE가 생성 한 '인공'샘플입니다. 그러나 SMOTE는 피처의 값을 '약간'수정하는 인공적인 샘플을 만드는 대신 반복 된 샘플을 만들었습니다.
나를 이해할 수 있기를 바랍니다.
감사합니다.
그래서 data.frame'data'의 범주 형 변수'sample'에 새로운 SMOTEING ID가 새롭고 유효하지 않다고 말하고 있습니까? 이 변수의 클래스는 무엇입니까? 요인으로 올바르게 코딩 되었습니까? – MrFlick
아니요. 설명하려고하는 것은 SMOTE가 값을 반복한다는 것입니다. 자세한 내용은 내 새 게시물을 참조하십시오. – user2228819