2014-10-20 6 views
0

크기가 다른 N 개의 파일이 있다고 가정합니다. 예를 들어 ZIP 또는 7ZIP와 같은 압축 알고리즘을 사용하면 압축 된 파일과 압축 된 파일을 모두 보관하는 데 크기 차이가 있습니까? F (I)는 I-파일이며, C (F (I)) = 경우 환언개인 및 전체 파일 그룹을 보관하는 데 가장 적합한 것은 무엇입니까?

는 압축 파일은 사실이다 : [C (F (1), (F)의

크기 (2), ..., f (n))] == [C (f (1)) + ... + C (f (n)

답변

1

파일에 유사성이있는 경우 압축하지 말고 파일을 시퀀스에 넣고 하나의 큰 파일 (예 : .tar.gz 파일)로 압축하는 "견고한"아카이브에 눈에 띄는 이점이 있습니다 각 파일은 개별적으로 .zip과 같습니다.

파일 크기가 작은 경우 이점은 훨씬 커집니다.

작은 파일 세트에 대한 빠른 테스트를 수행했습니다. .tar.gz은 동일한 내용의 파일 .zip보다 15 % 작았습니다. 둘 다 동일한 압축 레벨에서 동일한 압축 알고리즘으로 압축되었습니다.

0

고려할 우편 헤더가 있습니다. 바이트 수와 파일 당 오버 헤드가 더해질 것입니다. 실제 숫자는 아무 생각이 없지만, 몇 가지 수치를 구성하는 것 :

100 bytes - zip overhead 
10 bytes - per-zipped file data 

10 files, each zipped invidually: 10x100 + 10x10 = 1100 bytes overhead 
10 files, all in a single zip file: 1x100 + 10x10 = 200 bytes overhead 

그리고 그것은 완전히 하나에 10 개 개의 파일을 갖는 더 큰 데이터 세트에서 "엄격한"압축 알파벳을 만들 수있는에서 어떤 효율성을 무시합니다. 지퍼.

관련 문제