정수의 데이터 시퀀스를 정렬했습니다. 차이 값을 저장하는 대신 시퀀스의 유형을 (압축)을 저장할 수있는 더 나은 방법이 있나요작은 차이로 정렬 된 데이터 압축
Data: 1 2 3 5 7 8 9 10 13 14
Differences: (start 1) 1 1 2 2 1 1 1 3 1
: 두 숫자 사이의 최대 차이는 그래서 데이터가이 같은 예를 들어 본다 3.입니까? 사전 기반 방법을 사용하면 숫자 1과 2의 임의성 때문에 압축하지 못했습니다. "PAQ"스타일 압축을 사용하면 결과가 더 좋지만 여전히 만족스럽지 않습니다. 허프 먼과 산술 코더는 사전 기반 방법보다 나쁩니다.
예측과 관련하여 어떤 방법이 있습니까? 예를 들어
은 (작거나 더 일관 될 수 있음) 점포 차이 원래 데이터 및보다 회귀
사용하거나 차이 히스토그램에 기초하여 예측 일종의 사용 하는가?
아니면 이미 네 차이를 저장하고있는 의견 말 때문에
각 숫자를 이전 숫자 (1-3)로부터의 거리로 저장할 수 있지만 2 비트 숫자로 지정할 수 있습니다. 그러면 모든 바이트에 4 개의 숫자를 채울 수 있습니다. 이 단점은 시퀀스의 주어진 숫자를 결정할 때 처음부터 시작해야한다는 것입니다. 너는 모든 거리를 더한다. – Pete
예 .. 저는 이미 1 바이트에 4 개의 숫자를 채 웁니다. 이 "문제"에 대한 더 나은 해결책이 있다면 궁금합니다. –
절반을 사용하지 않을 수도 있고 조금 더 많은 공간을 확보 할 수도 있습니다. 그러나 숫자 시퀀스가 실제로 무작위이면 일반적으로 일종의 반복 시퀀스 및 임의의 데이터에 대한 아이디어를 기반으로하므로 일반적으로 압축 알고리즘에 가치가 없기 때문에 압축 알고리즘에서 많은 가치를 얻지는 않을 것입니다. – Pete