0

교육 데이터 세트를 사용하여 Spark Kmeans 모델을 구성 할 수 있습니다. 내 모델이 새로운 데이터에 적응하도록 만들고 싶습니다. Spark StreamingKmeans는 저에게 큰 것 같습니다.정적 교육 데이터로 StreamingKmeans 모델 초기화

그러나 Spark의 StreamingKmeans는 스트림 된 데이터에서만 학습 할 수 있습니다. 기본 정적 모델을 사용하여 모델을 초기화하고 일부 정적 학습 데이터에 대해 교육 한 다음 시간 경과에 따라 모델을 새로운 스트리밍 데이터에 대해 학습 할 수는 없습니다.

정적 교육 데이터를 사용하여 Spark에서 KMeans 모델을 초기화하고 StreamingKmeans를 사용하여 새로운 데이터에 시간을두고 교육하는 방법이 있습니까?

답변

1

설명서에 따르면 StreamingKMeans에는 setInitialCenters(centers: Array[Vector], weights: Array[Double]) 방법이 있습니다. 그리고 정적으로 훈련 된 KMeansModelclusterCenters(): Array[Vector] 방법을 가지고 있습니다. 따라서 미리 훈련 된 KMeansModel의 clusterCenters()으로 StreamingKMeans를 초기화 할 수 있습니다.

0

정적 트레이닝 데이터에 여전히 액세스 할 수있는 경우이를 DStream의 StreamingKMean으로 보낼 수 있습니다. 그렇지 않으면 StreamingKMeans 객체를 초기화하는 또 다른 방법이 있다고 생각하지 않습니다.