2017-10-19 2 views
1

R 및 임의의 포리스트 패키지를 범주 형 및 숫자 형 변수와 "원치 않는 coloumns"가 포함 된 데이터 집합으로 사용하려고합니다. 내 예측 변수로 포함시키지 않으려는 coloumns). 또한, 내 바람직한 변수 중 일부 (예측 변수로 사용되기로되어 있음)가 누락되었습니다. 어떻게 처리 할 수 ​​있습니까?누락 된 값이 포함 된 범주 형, 숫자 형 및 "원하지 않는"변수가 섞여있는 임의 포리스트

답변

0

귀하의 데이터 세트가 이와 유사하다고 가정했습니다.

mydf <- data.frame(target = c(1:100), 
        param1 = c(rep("a",10), rep("b", 50), 
           rep("c", 20), rep("a",15), rep(NA, 5)), 
        param2 = runif(100,0,1), 
        param3 = c(runif(20,1,10),runif(50,20,30),rep(NA,10), 
           runif(10,0,5), runif(10,70,80))) 
  1. 는 원하는 열을 사용합니다.

    a. 수식에서 임의의 포리스트에서 사용할 열을 지정할 수 있습니다. myrf <- randomForest(target ~ param1 + param2, mydf) # this excludes param3

    b. 또는 원하는 열만 유지하여 데이터 집합의 하위 집합을 만들 수 있습니다. NA를 처리 할

    mydf2 <- mydf[,c(target,param1,param2] 
    myrf <- randomForest(target ~ ., mydf2) 
    
  2. 값.

    a. 당신은 그들을 대신 할 수도 있습니다.

    b. 또는 rpart과 같이 그들을 처리 할 수있는 다른 라이브러리를 사용할 수도 있습니다.

마지막으로이 스레드를 살펴 보시기 바랍니다.

How to build random forests in R with missing (NA) values?

+0

위대한! 고맙습니다 –

관련 문제