2016-10-18 2 views
-1

나는이PYSPARK : 데이터 프레임 작업 방법?

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
from pyspark.sql.functions import * 

sc = SparkContext() 
sql = SQLContext(sc) 

df1 = sql.createDataFrame([("Mark", 68), ("John", 59), ("Mary", 49)], ['Name', \ 
'Weight']) 

df2 = sql.createDataFrame([("White", 68), ("Smith", 59), ("Gary", 49)], ['Name', \ 
    'Weight']) 

가 지금은 무작위 N = 선택합니다 다음 dataframes 2 체중 열의 쌍 (임의의 숫자가 될 수 있습니다) 다음과 같은 쌍을 만들고, 각 쌍은 두 개의 부동 한 중량으로 구성

(68, 59) 
(49, 68) 

는 I은 그 중량 (68) 및 (49) (DF1)에서 선택하고자 및 DF2로부터 만 중량 59 및 68과 다른 dataframe 생성 :

df3 = sql.createDataFrame([("Mark", 68, "Smith", 59), ("Mary", 49, "White", 68)], ['Name1', \ 
    'Weight1', 'Name2', 'Weight2']) 

큰 데이터로 작업하고 있습니다. n이 주어지면, 먼저 n 쌍을 생성 한 다음 최종 데이터 프레임을 생성해야합니다.

답변

0

시도 :

>>> df1.where(df1['Weight'].between(68, 59)).union(df2.where(df2['Weight'].between(49, 68))) 
+0

덕분에,하지만 난 즉, 주어진 N, 내가 처음 n 쌍을 생성 한 후 최종 dataframe를 만들 필요가 쌍의 수를 가질 수 있습니다. – Alex

관련 문제