2017-01-20 5 views
0

여러 행이있는 데이터 프레임이 있습니다. 열 기반으로 각 열 값을 비교하고 열 이름을 찾고 싶습니다.Spark 데이터 프레임의 여러 열 값 비교

예 : DF - ID, 이름, 주소, 거리, 도시, 국가, 우편 번호 ID를 기반으로 불일치가있는 입력란을 찾고 싶습니다. 여기

Seq(1,aaa,no55,melbourne,australia,00001) 
Seq(1,aaa,no55,melbourne,australia,00002) 
Seq(2,aaa,no55,melbourne,australia,00001) 
Seq(2,aaa,no55,melbourne,australia,00001) 

는 우편 번호는 ID의 차이가 =

1 내가 그 dataframe 50 열을 확인 원하기 때문에,보다 효율적인 방법으로이 작업을 수행하는 방법. 진심으로 감사드립니다.

+0

와 행의 세트가 있는가하면 모든 차이를 기록했다 것인가? 그렇다면 그렇습니다. 다소 가능합니다. – FaigB

+0

예 FaigB, 이는 ID 열을 기반으로합니다. 여러 개의 동일한 ID 열이 비교됩니다. – Rajan

답변

-1

사용 df.groupBy("all your columns here").count().filter("count = 1").show 당신의 입력 데이터를 비교 될 수있는 적어도 하나의 열

+0

안녕하세요, 위의 쿼리를 이미 사용하고 위의 쿼리를 이해했습니다. 전체 행을 제공하지만 내 관점에서 Zipcode (00002)와 같은 정확한 열과 해당 값을 가져와야합니다. DF.where (col ("status ("RULE1")) .where (col ("RULE1")) .isin (" ") .gt (1)) – Rajan

관련 문제