실제 문제가 발생했습니다. 나는 각각 약 32 컬럼을 포함하는 500 만개의 벡터에 대해 Kmeans 클러스터링을 할 필요가있다. 나는 리눅스가 필요한 Mahout을 시험해 보았고 나는 윈도우에 있었고, 리눅스 OS와 어떤 종류의 시뮬레이터를 사용하는 것이 금지되어있다.5 백만 개 이상의 벡터에 대해 클러스터링하는 KMeans
누구나 5M 벡터까지 확장 가능한 KMeans 클러스터링 알고리즘을 제안하고 신속하게 수렴 할 수 있습니까?
몇 가지 테스트를 거쳤지만 크기가 조정되지 않았습니다. 이는 그들이 천천히 진행되고 영원히 완료된다는 것을 의미합니다.
덕분에 지금까지 대규모 데이터 세트를위한 클러스터링을 원하는
얼마나 많은 클러스터? 유클리드, 또는 맞춤 통계? – denis
유클리드 클러스터 –