2013-09-03 2 views
0

누군가 올바른 방향으로 나를 가리킨다. 나는 정말로 크고 종종 매우 희소 한 행렬에 대한 중장비 조작을 원하고 있으며 그 작업에 적합한 도구를 찾고 있습니다. 이 행렬은 단일 시스템의 RAM보다 훨씬 더 크며 따라서 여러 다른 시스템으로 확산 될 것입니다. 매트릭스는 종종 희소합니다. 곱셈, 전치, 역행렬, 의사 역행렬, SVD, 고유치 분해 등 모든 일반적인 행렬 연산을 수행하기를 원할 것입니다. 필자의 염려 중 하나는 행렬이 여러 기계로 퍼질 가능성이 높기 때문입니다. 네트워크 지연이 아마도 가장 큰 적이기 때문에 정보 공유를 최소화하고 싶습니다. 나는 map-reduce (a la Hadoop)가 기계들 사이에 많은 양의 데이터를 스트리밍 할 때 초점을 맞추기 때문에 올바른 선택이 아니라고 우려한다. This book provides a great intro to map-reduce from an algorithmic perspective. 그리고 많은 행렬 연산은 속도가 느리거나 맵 감소라고 알려진 거대한 JOIN 연산과 유사합니다.거대한 행렬을 처리하는 방법은 무엇입니까?

그래서 ... 어디로 가야합니까?

+0

여기를 클릭하면 도움이 될 수 있다고 생각했습니다. @ 존 버리 맨이 나타납니다. –

+0

@ DougT.ha ha ... 당신은 아마도 "이봐, 나는 거대한 희소 행렬에 관한 친구 야!"라고 생각했을 것입니다. – JnBrymn

답변

0

이 백서 : Design of Hadoop-based Large-Scale Matrix Computations이 구현 가이드 라인에 대해 도움을 줄 수 있습니다. HBase는 스파 스 테이블을 저장하기위한 것이므로 HBase가 매트릭스의 권장 저장 옵션 일 수 있습니다.

관련 문제