0
자주 항목 집합을 식별하려면 데이터 집합을 처리해야합니다. 따라서 입력 열은 벡터 여야합니다. 원래 열은 쉼표로 구분 된 항목 문자열입니다, 그래서 내가 다음 않았다Spark Dataframe 열을 벡터에서 집합으로 변환하는 방법은 무엇입니까?
functions.split(out_1['skills'], ',')
문제는 skills
의 일부 행에 대해, 내가 복제 한 값이며하려고 할 때이 오류를 일으키는 자주 항목 집합을 식별합니다.
중복 된 요소를 제거하기 위해 벡터를 집합으로 변환하고 싶었습니다. 이런 식으로 뭔가가 :
functions.to_set(functions.split(out_1['skills'], ','))
하지만 즉 설정 벡터에서 열을 변환하는 기능을 찾을 수 없습니다, 더 to_set
기능이 없습니다.
내가 원하는 것, 즉 벡터에서 복제 된 요소를 제거하려면 어떻게해야합니까?