2011-10-19 4 views
1

Memcached와 Hadoop의 기본적인 차이점은 무엇입니까? Microsoft는 memcached Windows Server AppFabric 할 것으로 보인다.Memcached와 Hadoop의 차이점은 무엇입니까?

memcached는 여러 서버를 사용하는 거대한 키 값 해시 함수입니다. hadoop이란 무엇이며 어떻게 memcached와 다른 것입니까? 데이터를 저장하는 데 사용됩니까? 사물? 거대한 개체를 메모리 개체에 저장해야하지만 사람들이 말하는 것처럼이 거대한 개체를 "덩어리"로 분할해야하는 것처럼 보입니다. 객체를 바이트로 분할하면, Hadoop이 나타나고있는 것처럼 보입니다.

저는 메모리에 100MB 이상의 메모리가있는 거대한 클래스를 가지고 있습니다. 이 객체를 복제해야하며,이 객체를 어떤 방식으로 저장해야합니다. 이 괴물 개체를 캐싱 할 때 Google이하는 일과 같이 분할해야하는 것처럼 보입니다. 어떻게 이런 짓을 구글입니다. 이 점에 대해서 어떻게 도와 주실 수 있습니까? 내 개체는 단순한 구조화 된 데이터가 아닙니다. 그 안에는 수업을 위아래로 참조 할 수 있습니다.

어떤 생각, 포인터, 생각, 추측이 도움이됩니다.

감사합니다.

+0

Hadoop은 메모리에 아무것도 저장하지 않으며 일반적으로 HDFS에있는 디스크에 내용을 저장합니다. NoSQL 솔루션을 찾으려면 MongoDB 또는 Cassandra와 같은 키/값 저장소를 선택하십시오. HBase는 당신에게 옳은 것처럼 보이지 않습니다. –

답변

4

memcached [http://en.wikipedia.org/wiki/Memcached]는 단일 집중식 분산 캐싱 기술입니다.

아파치 hadoop [http://hadoop.apache.org/]는 데이터 처리를위한 프레임 워크로 google/amazon에서 많은 테라 바이트의 데이터를 대상으로합니다. 여기에는 분산 데이터베이스, 분산 처리 알고리즘,보고/쿼리, 데이터 흐름 언어 등이 문제의 여러 영역에 대한 하위 프로젝트가 포함됩니다.

두 기술은 서로 다른 문제를 해결합니다. 하나는 클러스터 전체에 캐싱 (작거나 큰 항목)입니다. 두 번째는 클러스터에서 큰 항목을 처리하는 것입니다. 귀하의 질문에 memcached 귀하의 문제에 더 적합하게 들리는군요.

1

Memcache는 저장된 개체 값의 한계로 인해 작동하지 않습니다. memcache faq. 이 한계가 10MB로 증가 할 수 있지만 링크를 찾을 수없는 곳을 읽었습니다.

사용 사례로 mongoDB를 사용해 보시기 바랍니다. mongoDb faq. MongoDB는 memcache의 대안으로 사용될 수 있습니다. DB에 대용량 파일 시스템을 저장하기위한 GridFS를 제공합니다.

0

좋은 솔루션을 선택하는 것은 무료 문서 서비스를 영원히 무료 음악 서비스에 저장하는 것의 차이와 같은 의도 된 용도의 요구 사항에 달려 있습니다. 예를 들어, 개체를 다시 만들거나 고유하게 특수하게 만들 수 있습니까? 추가 처리 단계 (즉, MapReduce)가 필요합니까? 객체 (또는 일부)를 얼마나 빨리 가져와야합니까? 이 질문에 대한 답은 솔루션 세트에 광범위하게 영향을 미칩니다.

개체가 충분히 빠르게 재생성 될 수있는 경우 많은 컴퓨터에서 충분한 양의 RAM을 언급 한 것처럼 Memcached를 사용하는 것이 간단한 해결책 일 수 있습니다. 나중에 이것에 지속성을 추가하기 위해 CouchBase (이전의 Membase)는 매우 가치가 있으며 초대형 게임 플랫폼 용으로 생산에 사용되었습니다.

개체를 다시 만들 수없는 경우 S3 및 기타 클라우드 파일 공급자가 현재 요구 사항을 충족하지 않는지 확인하십시오. 상위 그룹 액세스의 경우 분산, 병렬, 내결함성 파일 시스템 솔루션 중 하나 인 DDN (GPFS 및 Lustre 장비 포함), Panasas (pNFS) 중 하나를 고려하십시오. 나는 DDN 장비를 사용했고 Panasas보다 가격이 더 좋았습니다. 두 제품 모두 DIY BackBlaze보다 훨씬 우수한 지원을 제공합니다.

GlusterFSCeph과 같은 분산, 병렬 파일 시스템의 대부분 무료 구현이 견인력을 얻고 있습니다. Ceph는 S3 호환 게이트웨이를 발표하고 BTRFS를 사용할 수 있습니다 (Lustre의 향후 대체, 프로덕션 준비에 가까워짐). Ceph architecture and presentations. Gluster의 장점은 Ceph 배포를 지원하는 공급 업체가있을 수 있지만 상업적 지원 옵션입니다. Hadoop's HDFS은 비슷하지만 최근에 평가하지 않았습니다.

0

순수한 Hadoop을 사용해야합니다 (HBASE, HIVE 없음). 맵 축소 메커니즘은 개체를 여러 청크로 분할하여 Hadoop에 저장합니다. Map Reduce에 대한 자습서는 here입니다. 그러나 Hadoop은 처음에는 방대한 컴퓨팅 및 스토리지를위한 솔루션이라는 것을 잊지 마십시오. 귀하의 경우에는 Membase가 Memcached를 추가 저장 기능으로 구현하는지 확인하는 것이 좋습니다. memcached/membase를 사용하여 reduce를 매핑 할 수 없지만 여전히 분산되어 있으며 객체가 클라우드 방식으로 캐시 될 수 있습니다.

관련 문제