나는 창 (10)에 스파크 2.1를 실행하고를 몇 열을 부분 집합 제거, 나는 JDBC 사용하여 불꽃 MySQL에서 가져온 데이터를 테이블 내가를 만들려면이스파크 : 널 (null) 행
x y z
------------------
1 a d1
Null v ed
5 Null Null
7 s Null
Null bd Null
처럼 보인다 위의 테이블에서 x and y columns
만있는 새로운 스파크 데이터 세트를 만들었고이 두 열 중 하나에서 null이없는 행만 보관하는 것을 원하지 않았습니다. 내 결과 테이블은 다음이
x y
--------
1 a
7 s
과 같아야하는 것은 코드 : 같이
val load_DF = spark.read.format("jdbc").option("url", "jdbc:mysql://100.150.200.250:3306").option("dbtable", "schema.table_name").option("user", "uname1").option("password", "Pass1").load()
val filter_DF = load_DF.select($"x".isNotNull,$"y".isNotNull).rdd
// lets print first 5 values of filter_DF
filter_DF.take(5)
res0: Array[org.apache.spark.sql.Row] = Array([true,true], [false,true], [true,false], [true,true], [false,true])
은, 위의 결과가 나에게 실제 값을 제공하지 않지만 값이 때 부울 값 (참을 반환 null이 아닐 때 false, 값이 Null 일 때 false)
감사합니다, 그것은 오류없이 실행되지만 출력에 데이터가 없습니다. 그것은 빈 테이블을 표시했습니다. 나는 또한이'load_DF.select ($ "x", $ "y")와 같은 단일 필터로 시도했다. filter ("x! = null")'그러나 운이 없다. – Nagesh
load_DF.select ($ "x", $ "y") 필터 시도 ("x! = Null") –