0
레이블 또는 헤더없이> 4k 열의 pyspark df가 있습니다. 열 값을 기반으로 각 열에 특정 작업을 적용해야합니다.pyspark 데이터 프레임 열을 처리하는 방법
나는 판다를 사용하여 동일하게했으나 판다를 사용하고 싶지 않고 스파크 데이터 프레임에 직접 열 현명한 변환을 적용하려고합니다. df가 label이없는> 4k 열을 가지고있는 경우 어떻게 열 현명한 변환을 적용 할 수 있는지에 대한 아이디어가 있습니다. 또한 특정 df 열 인덱스에 변환을 적용하고 싶지 않습니다.
확인, 가정을 . 팬더에서 나는 df.iloc [:, i] = df.iloc [:, i] .apply (lambda x : x.split() [0])와 같은 것을하고있다. 내가 어떻게 불꽃을 할 수 있습니까? –
@occasionalvisitor는 이전에 iloc을 사용하지 않았습니다. 이 링크를 확인하십시오 [링크] (http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method) –