2012-04-28 4 views
2

많은 NA가있는 데이터 세트로 작업하고 있습니다. 나는 처음 6 컬럼에는 어떠한 NA도 없다는 것을 알고있다. 첫 번째 열은 ID 열이므로 생략하고 있습니다.RandomForest의 예상치 못한 출력

set.seed(448) 
RF <- randomForest(sub1[,c(2:6)], sub1[,70] 
    ,do.trace=TRUE,importance=TRUE,ntree=10,,forest=TRUE) 

:

sub1 <- TrainingData[which(!is.na(TrainingData[,70])),] 

나는 다음이 코드를 사용하여 랜덤 포레스트에서 설정 한 데이터로 SUB1을 사용

나는 응답 열에 값이 전용 라인을 선택하려면 다음 코드를 실행 NA의 출력을 확인하기 위해이 코드를 실행합니다.

> length(which(is.na(RF$predicted))) 
[1] 65 

나는 wh를 알아낼 수 없습니다. y 데이터가 깨끗해지면 NA를 얻게 될 것입니다.

제안 사항?

답변

5

더 많은 나무를 사용해야한다고 생각합니다. predicted 값은 가방 외부 집합에 대한 사전 설정이기 때문에. 그리고 나무의 수가 아주 적은 경우,이 세트가 무작위로 형성되기 때문에 어떤 경우는 절판 세트에 존재하지 않습니다.