2017-09-15 3 views
0

나는 kaggle에서 시작하고 있습니다.교육 및 테스트 데이터 세트는 무엇입니까

난 그냥 다양한 데이터 과학 및 기계 대회마다 대회가 훈련 데이터, 테스트 데이터원본 데이터를 업로드 한 것을 내가 본

학습을 통해 갔다.

누군가가 그 사실을 설명 할 수 있으며 문제를 해결하는 동안 어떻게 그 데이터 집합을 사용합니까?

+0

이 질문은 [소프트웨어 개발보다는 기계 학습] (// meta.stackoverflow.com/q/291009/1233251)과 관련되어 있기 때문에 주제를 벗어나는 것으로 투표를 끝내기로했습니다. [Cross Validated] (// stats.stackexchange.com) 또는 [DataScience.SE] (// datascience.stackexchange.com)에서이 질문을 할 수 있습니다. –

답변

0

훈련 데이터 : 인공 지능을 훈련하는 데 사용됩니다.
테스트 데이터 : 이전 훈련 데이터를 사용하는 AI의 강도를 평가하는 데 사용됩니다.
원본 데이터 : 음, 원래 데이터입니다.

기계 학습을 할 때 AI는 어떤 식 으로든 훈련되어야합니다. 이것이 우리가 데이터를 깨뜨린 이유이며 AI가 원래의 데이터 (훈련 데이터)의 하위 집합을 제공하여 학습 할 수있게하는 이유입니다. 우리는 테스트 데이터로 지식을 테스트 한 다음, 일단 완료되면 원래의 데이터를 피드로 받아 볼 수 있습니다.

0

ML에서 원본 데이터 세트는 학습 및 테스트 세트 (때로 교차 유효성 검사 세트로도 구성)로 나뉩니다.

교육 세트 : 알고리즘에 대한 매개 변수를 맞추는 데 사용하는 데이터 세트입니다.

테스트 세트 : 알고리즘에 대한 매개 변수의 정확도를 평가할 데이터 세트입니다.

훈련 세트, 테스트 세트 스플릿은 보통 각각 80 %, 20 % 또는 70 %, 30 %입니다. 분할하기 전에 원본 데이터 세트를 임의로 설정하는 것이 좋습니다. 항상 ML에서 매개 변수를 맞추기 위해 사용 된 데이터 세트의 오류는 항상 낮습니다. 훈련 세트를 사용하여 알고리즘을 평가하지 마십시오.

0

훈련 된 모델이 보이지 않는 데이터에서 얼마나 잘 수행되는지 평가하려면 원래 데이터를 별도의 교육 및 테스트 세트로 분할해야합니다.

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42) 

이렇게하면 피쳐와 y 어레이를 30 % 테스트 데이터와 70 % 트레이닝 데이터로 무작위로 나눕니다. 그런 다음 회귀 모델을 다음과 같이 맞추십시오.

from sklearn.linear_model import LinearRegression 
reg = LinearRegression() 
reg.fit(X_train,y_train) # fit regressor to training data 
y_pred = reg.predict(X_test) # predict on test data 

희망 도움말.

관련 문제