아래의 코드로 두 개의 RDD로 데이터를 인쇄 할 수 있습니다.두 개의 RDD 데이터를 스파크로 비교
usersRDD.foreach(println)
empRDD.foreach(println)
두 RDD의 데이터를 비교해야합니다. 한 RDD의 필드 데이터를 다른 RDD의 필드 데이터와 반복 및 비교할 수 있습니까? 예 : 레코드를 반복하고 userRDD
의 이름과 나이가 일치하는 레코드가 empRDD
에 있는지 확인합니다 (별도 RDD에 입력하지 않은 경우).
나는 userRDD.substract(empRDD)
으로 시도했지만 모든 필드를 비교했습니다.
OP와 같은 소리는 한 RDD에 있고 다른 LDD에없는 키를 찾는 데 관심이있을 수 있습니다. 이를 위해서는'join' 대신'leftOuterJoin'이 필요합니다. 대답에 언급 할 가치가 있습니다. –
감사합니다 션,하지만 두 RDD에서 일치하지 않는 데이터를 찾아야합니다. 샘플 코드를 제공하면 좋을 것입니다. – Ramakrishna
감사합니다 @ 대니얼 다라 보스, 맞습니다. 나는 원본 텍스트를 잘못 읽었습니다. –