스파크 데이터 프레임 조인 - 첫 번째 데이터 프레임에만있는 데이터 선택

두 개의 데이터 프레임 DF1과 DF2가 있습니다. 내 임무는 DF1에서만 존재하지만 DF2에서는 존재하지 않는 데이터를 선택하는 것입니다. any1 도와주세요. Spark 1.6 셸을 사용하고 있습니다.스파크 데이터 프레임 조인 - 첫 번째 데이터 프레임에만있는 데이터 선택

2017-03-06 Falcom

이를 사용할 수 있습니다

val dfResult = df1.except(df2)

주를 두 dataframes 당신이 ANTI JOIN을 할 수있는 스파크 2.0 동일한 구조 (같은 열)

을 가질 필요가있다. 귀하의 기록은 일반적인 열 id에 의해 식별되는 가정 :

val dfResult = df1.join(df2, Seq("id"), "leftanti")

2017-03-06 19:55:39

아주 멋진 기능입니다. 불행히도 나는 불꽃 1.6 껍질의 해결책을 찾고있다. – Falcom

-1

어째서 .. dataframe1.as("d1").join(dataframe2.as("d2"), $"d1.col1" === $"d2.col1").select($"d1.*") 여기서 col1은 조인 할 열입니다.

2017-03-06 17:38:49

가 나에게 DF2에서 해당 데이터와 일치 DF1에서 해당 데이터를 제공하지 않을 것입니다. ?? DF2에 존재하지 않는 DF1의 데이터를 찾고 있습니다. – Falcom

답변