일부 60K 기능 (크기 a.k.a. 열)이있는 데이터 세트를 클러스터하고 (Hadoop을 사용하여) 분할하려고합니다. 이 데이터 세트는 인스턴스가 거의 없습니다 (약 100 행). 데이터를 가로로 분할하는 대신 피쳐 클러스터에 따라 분할하고 싶습니다. 예를 들어, 3 클러스터를 얻는다면 각 클러스터에 3 개의 다른 노드에서 실행하기 위해 20K 개의 열과 100 개의 행이 필요합니다.데이터를 가로로 나누지 않고 세로로 나누는 방법은 무엇입니까?
어떻게 이런 종류의 분할을 달성 할 수 있습니까? 그렇지 않으면 Hadoop이 아닌 다른 프레임 워크에 대한 제안을 제공하여이 분할을 용이하게 할 수 있습니까?
? 수행 할 작업이 열 단위 작업이며 동일한 매퍼에서 전체 레코드 (행)가 필요하지 않습니까? 어떤 형식으로 데이터 집합을 사용할 수 있습니까? –
데이터 세트는 csv 형식입니다. 네, 연산은 엔트로피를 찾는 것과 같습니다. 그래서 그것은 현명한 열이 될 것입니다. 동일한 매퍼에서 전체 레코드가 필요하지 않습니다. – phoenix
쪽매 파일 형식이 도움이 될 수 있습니다. 그것은 기둥 형 스토리지 레이아웃을 가지고 있습니다. Mapreduce 작업은 동일한 열에서 특정 열을 읽고 동일 작업을 적용 할 수 있습니다. 당신은 그것에 대해 더 많은 것을 할 수있다 –