Pyspark에서 누락 된 값을 제거하는 방법

다른 열에 누락 된 값이 들어있는 샘플 데이터를 사용하고 누락 값이있는 모든 행을 제거하려고합니다.Pyspark에서 누락 된 값을 제거하는 방법

데이터 설명이다 : 나는 온라인 검색 만 dataframe 작동 dropna 것 같아 한

. 나는 dataframe를 만들 때, 나는 오류 메시지가

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))

내가 때문에 NA의 추측을 가지고, 나는 데이터 프레임을 만들 수 없습니다. 어떻게해야합니까? 미리 감사드립니다! auto 가정

출처

2017-03-08 vivi11130704

이있는 DataFrame

auto.na.drop()

참조 : 비 숫자 값을 나타내는하지 str('NA') 단지 동일한 CSV 파일에 DataFrame.dropna()

출처

2017-03-08 23:30:48

내가'자동차 = sc.textFile ("///home/cloudera/Downloads/auto_mpg_original.csv 파일을") 한 일이다 CSV에 빈 문자열을 사용합니다. flatMap (lambda x : x.split (","))'이제 RDD를 만듭니다. 그런 다음 원래 게시물'auto_DF_prep = ...'의 코드를 사용하여 DF를 만들려고했으나 오류가 발생했습니다. 데이터 프레임은 어떻게 만들 수 있습니까? – vivi11130704

Spark 2.x를 사용 중인지 여부에 따라 다릅니다. –

NA합니다. auto_RDD = 자동 :

null 값은 그래서 여기

출처

2017-03-09 01:27:18

Pyspark에서 누락 된 값을 제거하는 방법

답변

관련 문제