2017-10-15 1 views
-3

질문 :R에서 데이터를 학습 및 검증으로 분할하는 방법?

데이터를로드하고 set.seed (4650)를 사용하여 75 % 교육 및 25 % 유효성 검사 데이터로 분할합니다.

setwd("C:/Users/Downloads") 
cat = read.csv("cat.csv") 
set.seed(4650) 
train = sample(c(TRUE, TRUE, TRUE, FALSE), nrow(cat), rep = TRUE) 
validation = (!train) 

을 내가 훈련 데이터의 요약을 제공해야합니다

이 내가 가지고있는 것입니다.

summary(train) 

이는

Mode  FALSE TRUE 
logical 830  2463 

내가 올바른 방법으로 데이터를 분할하고 있는가 나에게 준다?

대단히 감사합니다.

답변

2

이것은 데이터 분할이 캐럿 패키지의 Max Kuhn의 book에서 수행되는 방법입니다.

library(caret) 
set.seed(4650) 
trainIndex <- createDataPartition(iris$Species, 
            p = .75, 
            list = FALSE, 
            times = 1) 

irisTrain <- iris[ trainIndex,] 
irisTest <- iris[-trainIndex,] 
0

다음은 수행 할 수있는 작업입니다.

#Example Data 
df <- iris 

n_train <- round(nrow(iris) * 0.75) 

train <- sample(1:nrow(iris), n_train, replace = FALSE) 
test <- (1:nrow(iris))[-train] 

train_df <- df[train, ] 
test_df <- df[test, ] # same as df[-train, ] 

summary(train_df) 
관련 문제