2014-11-19 1 views
0

마후 스트리밍 K는 클러스터에서 알고리즘을 의미하며 하나의 파일 만 출력됩니다.스트리밍 Kmeans 하나의 파일 출력 마하

저는 Mahoot/Hadoop을 처음 사용합니다. 그러나 작업이 여러 노드로 분할되어 있기 때문에 하나 이상의 파일이 있어야합니다. 제가 맞다면 왜 그렇게되지 않을까요?

데이터가 너무 작아서 처리가 하나의 시스템에서 수행되거나 작업 (Hadoop 또는 이와 유사한 경로)을 실행할 때 뭔가 엉망이 될 수 있습니다. 이것이 그 이유입니다 단일 컴퓨터에서 실행됩니까?

답변

0

하둡은 데이터 청크를 관리합니다 (예 : 파일을 여러 개로 분할).

이것은 사용자의 관점 (즉, HDFS에서)에는 하나의 파일이 있음을 의미합니다. Howver, datanodes 파일 시스템에는 많은 것들이 있습니다.

+0

답장을 보내 주셔서 감사합니다. 이전에 Mahout K Means를 드라이버에서 사용해 보았지만 part-r-000000-part-r-000008이라는 9 개의 파일을 가지고 있습니다. 그러나 코드에서 스트리밍 K 평균을 실행하는 경우, -r-00000. 왜 그런지 생각해? – Marko