2017-02-08 5 views
0

레이블 또는 헤더없이> 4k 열의 pyspark df가 있습니다. 열 값을 기반으로 각 열에 특정 작업을 적용해야합니다.pyspark 데이터 프레임 열을 처리하는 방법

나는 판다를 사용하여 동일하게했으나 판다를 사용하고 싶지 않고 스파크 데이터 프레임에 직접 열 현명한 변환을 적용하려고합니다. df가 label이없는> 4k 열을 가지고있는 경우 어떻게 열 현명한 변환을 적용 할 수 있는지에 대한 아이디어가 있습니다. 또한 특정 df 열 인덱스에 변환을 적용하고 싶지 않습니다.

답변

0

Spark 설명서에 따르면 데이터 프레임에는 헤더와 비슷하게 데이터베이스 테이블이 포함되어 있습니다. 어떤 경우

, 간단한 for 루프 트릭해야한다 : 나는 각 컬럼을 통해 내가 열 값에 정규식 체크를 할 루프는 다음과 일치하면 내가 그것을 업데이트 할 때

for column in spark_dataframe.columns: 
    (do whatever you want to do with your columns) 
+0

확인, 가정을 . 팬더에서 나는 df.iloc [:, i] = df.iloc [:, i] .apply (lambda x : x.split() [0])와 같은 것을하고있다. 내가 어떻게 불꽃을 할 수 있습니까? –

+0

@occasionalvisitor는 이전에 iloc을 사용하지 않았습니다. 이 링크를 확인하십시오 [링크] (http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method) –

관련 문제