2014-06-23 2 views
1
import pandas as pd 
import statsmodels.formula.api as sm 
train = pd.read_csv('/Users/..../Desktop/train.csv') 
from sklearn.cross_validation import train_test_split 

그래서 내가 기차/테스트에 70/30 분할을 만드는 방법에 붙어 설정 ... 이것은분할에게 데이터가

+0

? 그것도 제공하십시오. – Aditya

+0

[도움말 파일에는 예제가 있습니다.] (http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html) – Emre

답변

0

을 ipython 사용 kaggle에 작업 급여 예측을 기반으로 Data 모두를 A NumPy와 배열의 데이터 집합 (무소속 및 부양 가족) 보유하고있는 경우이 방법으로 을

Data=([[1, 2, 3, 430],[...]...]) 

3 독립 한 의존

당신은 FO 인덱스를 설정할 수 있습니다 R 그런 식으로 공격 태도를 보여준 :

test_ind=int(Data.shape[0]*0.3) 
train_ind=Data.shape[0]-test_ind 

Data[:train_ind,:4]이 될 훈련 데이터 Data[train_ind:,:4]는 테스트 데이터 될 것

코드를 분할입니다