2010-08-04 2 views
4

실제 문제가 발생했습니다. 나는 각각 약 32 컬럼을 포함하는 500 만개의 벡터에 대해 Kmeans 클러스터링을 할 필요가있다. 나는 리눅스가 필요한 Mahout을 시험해 보았고 나는 윈도우에 있었고, 리눅스 OS와 어떤 종류의 시뮬레이터를 사용하는 것이 금지되어있다.5 백만 개 이상의 벡터에 대해 클러스터링하는 KMeans

누구나 5M 벡터까지 확장 가능한 KMeans 클러스터링 알고리즘을 제안하고 신속하게 수렴 할 수 있습니까?

몇 가지 테스트를 거쳤지만 크기가 조정되지 않았습니다. 이는 그들이 천천히 진행되고 영원히 완료된다는 것을 의미합니다.

덕분에 지금까지 대규모 데이터 세트를위한 클러스터링을 원하는

+0

얼마나 많은 클러스터? 유클리드, 또는 맞춤 통계? – denis

+0

유클리드 클러스터 –

답변

2

OK, 그래서, 그래서 일을하는 유일한 방법은 두싯을 사용하는 것입니다. IT에는 Linux 플랫폼이 필요합니다. 그래서 가상 박스를 사용하고 우분투를 놓고 Mahout을 사용해야했습니다. 그것은 Mahout을 설정하는 긴 과정이지만 내가 사용한 두 개의 링크는 다음과 같습니다.

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

+0

링크가 더 이상 올바르지 않지만 Google을 통해이 가이드를 쉽게 찾을 수 있습니다. –

+0

끝 괄호는 URL의 일부 여야합니다. 위에는 현재 URL의 일부로 강조 표시되어 있지 않습니다. 브라우저에 URL을 추가하면 페이지에 추가됩니다. –

관련 문제