하둡의 데이터 그룹화

다음과 같은 문제가 있습니다. I 가진 2 개 데이터 세트는 다음과 같은 구조의 데이터를 포함하는 하나

A1 B2 C1 D1 
A1 B2 C1 D3 
A3 B1 C2 D2 
etc

이러한 객체에 대한 값을 포함하는 다른 하나 I 그룹 데이터 I는 A1을 가질 수있다보다는 어떻게

A1=x 
B2=y 
C1=z 
D1=q 
etc

를 = x B2 = y C1 = z D1 = q를 계산하기 위해서?

감사합니다.

2013-06-26 sergiuz

두 번째 데이터 집합은 데이터 노드의 메모리에 맞게 충분히 작습니까? – climbage

예라고합시다. 그것을리스트에 저장하라고합니까? – sergiuz

일종의지도 일 가능성이 높습니다. 그렇지만 그렇습니다. 'DistributedCache'를 통해 파일을 배포하고 매퍼로 읽을 수 있습니다. – climbage

두 번째 데이터 집합이 작은 경우 분산 캐시에 넣을 수 있습니다.

매퍼 &에서 한 줄씩 첫 번째 데이터 세트를 읽은 다음 분산 캐시의 입력을 사용하여 값을 얻은 다음 < "A1 = x B2 = y C1 = z와 같은 키 - 값 쌍을 방출 할 수 있습니다 D1 = q ", 1>

2013-06-26 18:13:15 Chaos

여러분, 고마워요! 내 실제 데이터 세트에는 실제로 ~ 1.200.000 줄의 값이 들어 있습니다. 줄당 30-40 자. 너무 커서 메모리에 맞지 않는지 알 수 없습니다. – sergiuz

너무 커서는 안됩니다. – Chaos

답변