2016-07-12 1 views
3

randomForest를 사용하여 모델을 연습하고 있습니다. "무언가가 잘못되어 모든 정확도 메트릭 값이 누락되었습니다."라는 오류 메시지가 계속 표시되어 데이터가 스크럽되고 최소로 줄어 들었습니다.R train randomForest, prox = 실패 원인 TRUE

마지막으로,이 모든 감소 후, 그것은 여전히 ​​오류 메시지와 함께 실패 할 것 등, 시간

나는 요인 수준 또는 무언가의 희소 가치가 있었다 가정 및 그래서 (결합 수준)을 분류. grins를 위해, 나는 trax 함수에서 prox = TRUE 매개 변수를 제거했습니다. 갑자기 오류 메시지가 표시되지 않습니다. 아무도이 매개 변수가 무엇을하는지 정확히 알 수 없으며 오류의 원인이되는 이유는 무엇입니까?

는 여기에 몇 가지 코드 조각입니다 : 나는 기차 함수 인수에 TRUE PROX = 다시 추가하는 경우, 지금

library(caret) 
set.seed(121) 
inTrain = createDataPartition(y = reducedData$loan_status, p = 0.7, list = FALSE) 
training = reducedData[ inTrain,] 
testing = reducedData[-inTrain,] 

fitControl <- trainControl(method = "cv", number = 5, allowParallel = TRUE) 

modelFit <- train(loan_status ~ ., data = training, method = "rf", trControl = fitControl) 

, 다시 공포의 오류 메시지가 발생합니다. 해당 매개 변수가 없으면 실행됩니다.

Something is wrong; all the Accuracy metric values are missing: 
    Accuracy  Kappa  
Min. : NA Min. : NA 
1st Qu.: NA 1st Qu.: NA 
Median : NA Median : NA 
Mean :NaN Mean :NaN 
3rd Qu.: NA 3rd Qu.: NA 
Max. : NA Max. : NA 
NA's :3  NA's :3  
+0

샘플 데이터를 제공 할 수 있습니다. – Bg1850

+0

예, 어디로 업로드할까요? 축소 된 집합은 9MB입니다. – Jeff

답변

1

메소드에 "cv"를 사용하지 마십시오. "loocv"와 같은 다른 것을 사용하려고 시도하십시오 (cv에서 하나 남겨 두십시오). 일반적으로 각 그룹에 샘플 수가 적은 그룹이 너무 많으면이 문제가 발생하며 CV를 수행 할 때 CV가 모든 그룹 (모든 분할/테스트 분할에서)을 포괄 할 수 없다는 높은 확률이 있습니다. . 따라서 NA를 반환합니다.

fitControl <- trainControl(method = "cv", number = 5, allowParallel = TRUE) 
관련 문제