2017-03-11 5 views
0

나는 4 개 파일이 : train.txt, trainLabel.txt, TEST.TXT, testLabel.txttensorflow에서 데이터를 입력하는 방법은 무엇입니까?

train.txt

1,60,feature_col0,feature_col1,feature_col2,feature_col3,feature_col4,feature_col5,feature_col6,feature_col7,feature_col8,feature_col9,feature_col10,feature_col11,feature_col12,feature_col13,feature_col14,feature_col15,feature_col16,feature_col17,feature_col18,feature_col19,feature_col20,feature_col21,feature_col22,feature_col23,feature_col24,feature_col25,feature_col26,feature_col27,feature_col28,feature_col29,feature_col30,feature_col31,feature_col32,feature_col33,feature_col34,feature_col35,feature_col36,feature_col37,feature_col38,feature_col39,feature_col40,feature_col41,feature_col42,feature_col43,feature_col44,feature_col45,feature_col46,feature_col47,feature_col48,feature_col49,feature_col50,feature_col51,feature_col52,feature_col53,feature_col54,feature_col55,feature_col56,feature_col57,feature_col58,feature_col59 
1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,1,0,0,1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,1,0,0,0,1,0,0,1,0,0,1,0,0,1 

trainLabel.txt

1,4,feature_col0,feature_col1,feature_col2,feature_col3 
1,1,1,0 

test.txt

1,60,feature_col0,feature_col1,feature_col2,feature_col3,feature_col4,feature_col5,feature_col6,feature_col7,feature_col8,feature_col9,feature_col10,feature_col11,feature_col12,feature_col13,feature_col14,feature_col15,feature_col16,feature_col17,feature_col18,feature_col19,feature_col20,feature_col21,feature_col22,feature_col23,feature_col24,feature_col25,feature_col26,feature_col27,feature_col28,feature_col29,feature_col30,feature_col31,feature_col32,feature_col33,feature_col34,feature_col35,feature_col36,feature_col37,feature_col38,feature_col39,feature_col40,feature_col41,feature_col42,feature_col43,feature_col44,feature_col45,feature_col46,feature_col47,feature_col48,feature_col49,feature_col50,feature_col51,feature_col52,feature_col53,feature_col54,feature_col55,feature_col56,feature_col57,feature_col58,feature_col59 
0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,1,0,0,1,0,0,1,0,0,1,0,0,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1 

는 testLabel.txt

1,4,feature_col0,feature_col1,feature_col2,feature_col3 
1,1,0,0 

dpNum 입력에

내가 원하는 feature_col train.txt

[1 ,0..........., 1] # a rank 1 tensor; this is a vector with shape [60] 같은 일부 데이터,

그리고 예측에게 의미

,321

# Fit model. 
classifier.fit(x=training_set.data, 
       y=training_set.target, 
       steps=2000) 

즉 다음 tutorials 페이지에서 0

+0

좀 더 구체적으로 말씀해 주시겠습니까? 'train.csv'에는 실제로 15000 개의 치수가 있습니까, 아니면 15000 개의 데이터 포인트를 의미합니까? "대상 차원"은 정확히 무엇입니까? – kaufmanu

+0

코드에서'IRIS_TRAINING'은 무엇입니까? 그 CSV 파일에서 작은 발췌 부분을 게시 할 수 있습니까? – kaufmanu

+0

가짜 데이터를 생성하고 내 질문을 편집했습니다. 고마워. –

답변

1

training_set.target으로 전화하여 대상에 액세스 할 수 있습니다.이 경우 각 데이터 포인트에 대한 레이블이 제공됩니다.

또한 일부 용어와 혼동을 느낀다는 사실을 확신하지 못합니다. 교육 데이터 세트에 15,000 데이터 포인트가 있지만 1 000 레이블 만 있으면됩니다 (최소한 아이리스 데이터 세트의 경우). 전체 데이터 세트에 레이블이 붙어 있다고 믿는 한 감각이 좋습니다. 당신은 15,000 훈련 샘플과 1 천 가지 시험 샘플을 가지고 있다고 말하는 것이 었습니까?

그럼 다음 내용이 모두 이미 명확한 지 확신 할 수 없지만, 그렇지 않은 경우 잘 처리하면 문제가 해결됩니다.

Sepal length Sepal width  Petal length Petal width  Species 
5.1    3.5    1.4    0.2    I. setosa 
4.9    3.0    1.4    0.2    I. setosa 
4.7    3.2    1.3    0.2    I. setosa 
.... 
5.1    2.5    3.0    1.1    I. versicolor 
5.7    2.8    4.1    1.3    I. versicolor 

지금 일반적으로 다음과 같은 용어가 사용됩니다 :

  • 테이블의 각 행은 데이터 포인트 또는 샘플 인 아이리스 데이터 세트 (Wikipedia에서 촬영)이 같이 보입니다 말
  • 데이터 포인트의 차원은이 경우 4 개입니다 (이 4 개는 세로 길이, 세로 폭, 꽃잎 길이 및 꽃잎 폭을 특징으로합니다)
  • 레이블 또는 대상은 위 표의 마지막 열 (I. setosa 또는 I. versicolor)입니다. 일반적으로 레이블은 어떻게 든 인코딩됩니다. 귀하의 질문에 대한 조언을 드리 자면, 레이블은 I. setosa이고 1입니다. 그러나 그 두 가지 가능한 레이블 이상일 수 있습니다. 예 : 아이리스 데이터 세트에는 일반적으로 I. virginica이라는 세 번째 꽃이 있습니다.
  • 교육테스트 설정 테스트 세트는 일반적으로 작은 것을 제외하고이 정확히 같은 모양 (최종 출력의 점수를 평가하는 것보다 다른 테스트 세트의 레이블을 사용하지 않는 당신의 분류 자의).
+0

용어 해 주셔서 감사합니다. 내 옛 질문에 train.txt에는 실제로 15000 차원이 있으며 1000 차원 결과를 예측하려고합니다. –

관련 문제