의 카테고리 목록에서 핫 인코딩 된 벡터 하나를 생성하십시오. 각 고객이 범주에 속할 수있는 범주 (A, B, C, D, E)와 고객의 데이터 집합이 포함 된 데이터가있는 경우 . 어떻게하면이 같은 데이터 세트를 수행 할 수 있습니다 사람이 불꽃이 할 수있는 간단한 방법을 발견했다Spark
id, categories
1 , [A,C]
2 , [B]
3 , []
4 , [D,E]
및이
id, categories, encoded
1 , [A,C] , [1,0,1,0,0]
2 , [B] , [0,1,0,0,0]
3 , [] , [0,0,0,0,0]
4 , [D,E] , [0,0,0,1,1]
처럼, 하나의 뜨거운 인코딩 된 벡터에 범주 열을 변환? 다소 동일 아주 쉽게 할 수