for 루프를 사용하여 값 세트를 반복 할 수있는 것처럼 pySpark를 사용하여 dataframe
을 반복해야합니다. 아래는 제가 작성한 코드입니다. 이 코드의 문제는 내가 병렬 pySpark를 사용하여 데이터 프레임의 각 행을 반복하십시오.
funcRowIter
- 입니다 일치하는 것을 찾았습니다.
나는 pySpark에 그것을해야하고이를 위해 팬더를 사용할 수 없습니다
from pyspark.sql.functions import *
from pyspark.sql import HiveContext
from pyspark.sql import functions
from pyspark.sql import DataFrameWriter
from pyspark.sql.readwriter import DataFrameWriter
from pyspark import SparkContext
sc = SparkContext()
hive_context = HiveContext(sc)
tab = hive_context.sql("select * from update_poc.test_table_a")
tab.registerTempTable("tab")
print type(tab)
df = tab.rdd
def funcRowIter(rows):
print type(rows)
if(rows.id == "1"):
return 1
df_1 = df.map(funcRowIter).collect()
print df_1
내가 수집() 사촌없이이 작업을 수행하려고은 병렬 처리를 중단합니다 수집 매우 큰 데이터에 대한 좋은 옵션이 기록의 수백만 즉 없을 것 –