2016-07-01 3 views
0

스파크 및 스칼라를 사용하여 데이터 프레임의 도수 분포 (각 열에서 가장 일반적인 요소를 반환하고 나타 났던 횟수를 반환)를 계산하고 싶습니다. DataFrameStatFunctions 라이브러리를 사용하여 시도했지만 숫자 형식 열에 대한 데이터 프레임을 필터링 한 후 라이브러리의 모든 함수를 적용 할 수 없습니다. UDF를 만들 때이 작업을 수행하는 가장 좋은 방법은 무엇입니까?스파크/스칼라에서 데이터 프레임의 빈도 분포 계산 방법을 찾으십시오.

답변

6

당신은 val newDF = df.groupBy("columnName").count() newDF.show()

가 당신에게 고유 항목에 대한 빈도 수를 표시합니다 사용할 수 있습니다.