PySpark 2.0에서 수행하려는 작업이 df.rdd.map
으로 수행하기 쉽지만 Dataframe 실행 내부에 머물고 싶습니다. 엔진 때문에 성능상의 이유로 데이터 프레임 작업 만 사용하여이 작업을 수행 할 방법을 찾고 싶습니다. 내 문자열에 대한 정밀도 포맷 작업을해야 무엇을 각 행에 대해, 나에게 알려주는 열을 가지고 있고, 기본적으로Spark Dataframe 열의 데이터를 조건으로 사용하거나 다른 열 표현식으로 입력하십시오.
def precision_formatter(row):
formatter = "%.{}f".format(row.precision)
return row + [formatter % row.amount_raw/10 ** row.precision]
df = df.rdd.map(precision_formatter)
:
RDD 스타일의 작업은,이 같은 것입니다 그 정밀도에 따라 'amount_raw'열을 선택적으로 문자열 형식으로 지정하고 싶습니다.