0
.xlsx
파일을 pandas dataframe
으로 구문 분석하고 튜플 목록으로 변환하고자합니다. pandas dataframe
에는 두 개의 열이 있습니다.팬더 데이터 프레임 튜플 목록에
튜플 목록에는 product_id
이 transaction_id
과 같이 그룹화되어 있어야합니다. 튜플 목록에 pandas dataframe
을 생성 할 때 post을 만들었지 만 transaction_id
으로 그룹화 된 코드 결과는`product_id.
페이지 맨 아래에서 원하는 형식의 튜플 목록을 얻으려면 어떻게해야합니까? 예를 들어 (20004, [48815])
을주의 - -
import pandas as pd
import xlrd
#Import data
trans = pd.ExcelFile('/Users/Transactions.xlsx')
#parse xlsx file into dataframe
transdata = trans.parse('Orders')
#view dataframe
#print transdata
transaction_id product_id
0 20001 48165
1 20001 48162
2 20001 48166
3 20004 48815
4 20005 48165
transdata = trans.parse('Orders')
#Create tuple
trans_set = [tuple(x) for x in subset.values]
print trans_set
[(20001, (48165), (20001, 48162), (20001, 48166), (20004, 48815), (20005, 48165)]
Desired Result:
[(20001, [48165, 48162, 48166]), (20004, 48815), (20005, 48165)]
새로운 질문을하십시오. 현재 가지고있는 DataFrame과 원하는 CSV 형식을 표시하십시오. – unutbu
죄송합니다. @unutbu 저는 새로운 파이썬 사용자입니다. 틀린 데이터 유형을 언급하고있었습니다. 귀하의 결과는 튜플 목록을 제공했는데 .csv로 저장하려면 어떻게해야합니까? –
CSV는 어떤 모습이어야합니까? 예를 들어,'(20, [1, 2, 3])'이''20,1,2,3 "'또는''20 ', [1, 2, 3]' ''또는 다른 것이되어야합니까? – unutbu