0
내 데이터 프레임 안에 배열을 집계해야합니다.그룹을 가진 데이터 프레임에 집계
dataframe이 방법
splitted.map(lambda x: Row(store= int(x[0]), date= parser.parse(x[1]), values= (x[2:(len(x))])) )
값에서 만든이
내가이
mean_by_week = sqlct.sql("SELECT store, SUM(values) from sells group by date, store")
처럼 생각하고 싶지 배열이다 그러나 나는 다음과 같은 오류가
AnalysisException : u "데이터 유형 불일치로 인해 'sum (values)'을 확인할 수 없습니다. function sum에 ArrayType (StringType, true)이 아닌 숫자 유형이 필요합니다. 라인 0 POS 0 ",
배열은 항상 동일한 차원이있다. 그러나 각 차원이 변경 될 수 있습니다 실행의 길이는 100 근처에 있습니다.
RDD의?