두 개의 데이터 프레임 DF1과 DF2가 있습니다. 내 임무는 DF1에서만 존재하지만 DF2에서는 존재하지 않는 데이터를 선택하는 것입니다. any1 도와주세요. Spark 1.6 셸을 사용하고 있습니다.스파크 데이터 프레임 조인 - 첫 번째 데이터 프레임에만있는 데이터 선택
0
A
답변
0
이를 사용할 수 있습니다
val dfResult = df1.except(df2)
주를 두 dataframes 당신이 ANTI JOIN
을 할 수있는 스파크 2.0 동일한 구조 (같은 열)
을 가질 필요가있다. 귀하의 기록은 일반적인 열 id
에 의해 식별되는 가정 :
val dfResult = df1.join(df2, Seq("id"), "leftanti")
-1
어째서 .. dataframe1.as("d1").join(dataframe2.as("d2"), $"d1.col1" === $"d2.col1").select($"d1.*")
여기서 col1은 조인 할 열입니다.
+0
가 나에게 DF2에서 해당 데이터와 일치 DF1에서 해당 데이터를 제공하지 않을 것입니다. ?? DF2에 존재하지 않는 DF1의 데이터를 찾고 있습니다. – Falcom
관련 문제
- 1. 스파크 데이터 프레임 데이터 집계
- 2. 스파크 RDD 데이터 선택
- 3. 스파크 데이터 프레임 중복 제거 및 첫 번째 유지
- 4. pandas (데이터 프레임) 데이터 선택
- 5. 스파크 데이터 프레임 필터
- 6. 스파크 데이터 프레임 만들기
- 7. 스파크 데이터 프레임, WithColumn
- 8. 스파크 데이터 프레임 폭발 함수
- 9. 스파크 데이터 프레임 문자열을 월로
- 10. 스파크 데이터 프레임 랜덤 분할
- 11. 시간에 스파크 데이터 프레임 만들기
- 12. 스파크 데이터 프레임 열 수정
- 13. 부분으로 스파크 데이터 프레임 분할
- 14. 스파크 스칼라 데이터 프레임 isin
- 15. 데이터 프레임 스파크 자바에 가입
- 16. 데이터 속성이있는 첫 번째 요소 선택
- 17. 스파크 데이터 그리드 선택 가능
- 18. 스파크 데이터 프레임 : 합병 후 비뚤어진 파티션
- 19. 정수형 열에 대한 조인 null 체크 후 데이터 프레임 스파크
- 20. 하위 선택 데이터 프레임
- 21. 두 번째 데이터 프레임으로 데이터 프레임 필터링
- 22. withColumnRenamed 모든 열을 작성하고 스파크 데이터 프레임
- 23. 조인 테이블을 사용하여 데이터 선택
- 24. 첫 번째 데이터 배치를 읽은 후 스파크 스트리밍을 중지합니다.
- 25. R 데이터 프레임 열 이름으로 조인
- 26. 스파크 데이터 프레임/데이터 집합 : 일반 조건부 누적 합계
- 27. 첫 번째 데이터 게이트웨이 질문
- 28. 첫 번째 항목으로 데이터 삽입
- 29. 첫 번째 데이터 유닛의 "확장"
- 30. 감지 첫 번째 데이터 바인딩
아주 멋진 기능입니다. 불행히도 나는 불꽃 1.6 껍질의 해결책을 찾고있다. – Falcom