2016-06-05 2 views
0

마이크로 소프트에서 흰 종이에 기록 된 다음 입력 소스 파일이 매우 큰 경우MapReduce 작업에 대한 압축 효과는 무엇입니까?

압축 도움이 될 것입니다 (예를 들어, GB 500)와 동일한에 대해 반복적으로 맵리 듀스 작업을 실행하려면 입력 데이터. 입력 파일은 매우 큰 경우 디스크 I/O 및 네트워크 대역폭을 절약 할

그래서 우리는, 압축 를 사용해야합니다.

그러나 "동일한 입력 데이터에 대해 MapReduce 작업을 반복적으로 실행하는 방법"이 압축 및 압축 해제의 성능에 도움이되는지 이해할 수 없습니까? 매번 데이터가 다를지라도 압축 성능은 동일해야합니다.

+0

당신은 또한 마이크로 소프트 백서 링크를 가리킬 수 있습니다? –

+0

간단히 말해서, 압축을 여러 번 읽는다면, 인터넷 저장은 압축되지 않은 읽기보다 훨씬 큽니다. –

+0

@Ram, 링크가 없습니다. 가능하다면 업로드 할 수 있습니다. 그러나 Question를 사용하면 내 이해에 따라 질문이있는 문서를 첨부 할 수 없습니다. – Noon

답변

0

파일 압축에 사용되는 압축 논리의 종류에 달려 있다고 생각합니다. 다음은 인터넷에서 찾은 정보입니다. A :

http://comphadoop.weebly.com/

파일 압축은 두 가지 중요한 이점을 제공합니다. 파일을 저장하는 데 필요한 공간이 줄어 듭니다. b. 네트워크를 통해 또는 디스크로 데이터를 전송하는 속도를 높입니다. 대용량 데이터를 처리 할 때 이러한 절약은 모두 중요 할 수 있으므로 Hadoop에서 압축을 사용하는 방법을 신중하게 고려해야합니다.

압축 이유 : a) 데이터는 대부분 저장되며 자주 처리되지 않습니다. 일반적인 DWH 시나리오입니다. 이 경우 공간 절약은 처리 오버 헤드보다 훨씬 더 중요 할 수 있습니다. b) 압축 계수가 매우 높기 때문에 IO를 많이 절약 할 수 있습니다. c) 압축 풀기() 이따위 같은 매우 빠르게 그 우리는 작은 가격 D와 약간의 이득이 있음) 데이터가 이미 압축되지 압축

이유 도착 :

a) 압축 데이터는 분할 가능한 것은 아니다. 많은 현대적인 형식은 파일의 분할 및 기타 부분 처리를 가능하게하기 위해 블록 수준 압축으로 구축된다는 점에 유의해야합니다. b) 데이터가 클러스터에서 생성되고 압축에 많은 시간이 소요됩니다. 압축은 일반적으로 훨씬 더 CPU 집약적이며 압축 해제된다는 점에 유의해야합니다.

모든 압축 알고리즘은 공간/시간 트레이드 오프를 나타냅니다. 빠른 압축 및 압축 해제 속도는 일반적으로 공간 절약을 줄입니다. 의미, 빠른 압축 (시간의 관점에서) 파일이 상대적으로 큰 의미 (공간에 많은 이익을 의미). 느린 압축은 압축 된 파일이 매우 작음을 의미합니다. 2. 공통 입력 형식

various compression formats

+0

"동일한 입력 데이터에 대해 MapReduce 작업을 반복적으로 실행"은 데이터를 압축할지 여부를 결정하는 기준 중 하나입니다. – Noon

관련 문제