2017-03-12 3 views
0

필자는 R에 익숙하지 않으며 교육 선형 회귀 결과에서 테스트 데이터 집합을 예측하고 플로팅하는 데 어려움이 있습니다.포인트 예측 문 사용

내가 516 개 관측 와 트레이닝 세트 및 I는 훈련 데이터의 선형 회귀를 실행 10 개 관측

와 테스트 데이터 세트를 train2.lm = LM (CO2 ~ 기간 + P2 데이터 = 훈련) 요약 (train2.lm)

그런 다음 내 테스트 데이터를 플로팅 색 빨간색 플롯 설정 (테스트 $의 CO2를 ~ 테스트 $ 기간, COL = "빨간색")

지금 나는 예상을 데려 가고 싶다는 내 실제 테스트 다와 같은 음모에 테스트 포인트 내 모델이 실제 데이터를 얼마나 잘 예측했는지 확인할 수 있습니다.

포인트 (테스트 $ 기간, 예측 (train2.lm), COL = "오렌지")

나는 다음과 같은 오류를 xy.coords에서

오류 (X, Y)를 얻을 : 'X' 와 'y'길이가 다릅니다

저는 이것이 더 많은 가치를 가진 훈련 데이터 세트와 관련이 있다고 생각합니다. 테스트에서 회귀 분석을 사용하여 CO2를 예측하고 계획해야합니다.

+0

훈련 세트 대신에 시험 세트를 예측하십시오. – ilanman

답변

0

내 의견을 확대하여 다음은 문제를 완화 할 수있는 방법의 예입니다. 홍채 데이터 세트에 선형 회귀선 만들기 ...

# 150 samples in the iris dataset 
n = nrow(iris) 
train_ind = sample(n,size=50) 
# training set is 50 random samples 
train = iris[train_ind,] 
# testing set is 100 random samples (i.e. n - 50) 
test = iris[-train_ind,] 

# build a silly model on the training set 
train.lm = lm(Sepal.Length ~ Sepal.Width,data=train) 
# predict on the training set 
pred_train = predict(train.lm) 
# 50 predictions 
length(pred_train) 

# use the fitted model to predict on the testing set 
pred = predict(train.lm, newdata=list(Sepal.Width = test$Sepal.Width)) 
# 100 predictions 
length(pred)