2017-09-14 6 views
0

나는 012M을 클러스터링하기 위해 from pyspark.ml.clustering import KMeans 라이브러리를 사용한다. 내가 클러스터가 단지 10 시간 이동하고 더 이상 10 번 이동 보장합니다. 어떤 매개 변수를 사용해야합니까? 나를 위해, 나는 그것이 maxIter=10이어야한다라고 생각한다. 그러나 확실하지 않다. 어느 것이 최고입니까? maxIter=10 또는 initSteps=10클러스터 이동 수정 PySpark

답변

0

initSteps은 KMeans에 대해 초기화 단계가 수행되는 횟수와 관련이 있습니다. maxIter이 최대 반복 횟수이지만 반복 실행됩니다. 목적에 맞게 initSteps=10을 설정해도은 클러스터가 10 번만 이동한다는 것을 보장하지 않습니다. PySpark에서 예제를 찾을 수 없었지만, Sklearn의 경우 KMeans 초기화의 영향을 this example에서 확인할 수 있습니다.