2017-09-14 2 views
0

2 개의 CSV 데이터 소스가 있습니다. 모델을 만들기 전에 데이터 형식을 지정해야합니다.Tensorflow를 사용하여 다른 데이터 세트의 값을 찾는 방법은 무엇입니까?

============================================== =

데이터 소스 1 : Plant.csv

다른 식물의 특징.

PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT 

데이터 소스 2 : [201601.csv, 201602.csv, 201603.csv ...]

월 주문 식물

PlantID, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

을 판매 =====

: ==========================

지금이 같은 하나의 파일로 해당 파일을 결합하기 위하여려고하고있다
PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

키로 PlantID을하는을 찾아보십시오.

매달 판매 기록의 수백만이있다.

사람이 tensorflow으로 만드는 방법을 조언 수 있을까요?

답변

0

Tensorflow는 데이터베이스에 합류 아닙니다. 파이썬으로 정말하고 싶다면 팬더를 사용할 수 있습니다.

import pandas as pd 


df1 = pd.read_csv('Plant.csv') 
df1.set_index(['PlantID']) 
df2 = pd.read_csv('201601.csv') 
df2.set_index(['PlantID']) 

df3 = pd.concat([df1, df2], axis=1) 

Tensorflow은 효율적으로 실행 한 후 계산 그래프를 만들고입니다. 일반적으로이 그래프의 입력은 이미 수위가 낮은 배열이라고 가정합니다.

pandas은 관계형 데이터베이스에서와 같이 파이썬 내부의 관계형 데이터로 작동하도록 만들어졌습니다. 쿼리 언어로 실제 관계형 데이터베이스 내부에서 작업 할 수있는 옵션이있는 경우에도 판다보다 계산 상 효율적입니다.

관련 문제