다른 열에 누락 된 값이 들어있는 샘플 데이터를 사용하고 누락 값이있는 모든 행을 제거하려고합니다.Pyspark에서 누락 된 값을 제거하는 방법
데이터 설명이다 : 나는 온라인 검색 만 dataframe 작동 dropna 것 같아 한
. 나는 dataframe를 만들 때, 나는 오류 메시지가
auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))
내가 때문에 NA의 추측을 가지고, 나는 데이터 프레임을 만들 수 없습니다. 어떻게해야합니까? 미리 감사드립니다! auto
가정
내가'자동차 = sc.textFile ("///home/cloudera/Downloads/auto_mpg_original.csv 파일을") 한 일이다 CSV에 빈 문자열을 사용합니다. flatMap (lambda x : x.split (","))'이제 RDD를 만듭니다. 그런 다음 원래 게시물'auto_DF_prep = ...'의 코드를 사용하여 DF를 만들려고했으나 오류가 발생했습니다. 데이터 프레임은 어떻게 만들 수 있습니까? – vivi11130704
Spark 2.x를 사용 중인지 여부에 따라 다릅니다. –