擅长:python、mysql、java
<p>如果它真的是随机噪声,那么它就不会真正压缩。这意味着,如果你有8000位(1000字节x 8位/字节),每一位都有1/5(20%)的翻转概率,那么你就不能在8000 x(-4/5 x ln2 4/5+-1/5 x ln2 1/5)=8000 x(-4/5 x-0.322+-1/5 x-2.322)=8000 x(0.2576+0.4644)=5776位,即722字节。这是基于香农的信息论。在</p>
<p>因为表示变化位的简单方法需要1000个字节(只需对两个块的异或进行编码),通过压缩可以节省最多30%的空间。如果你实现的一致性更高,那么比特不是随机分布的,或者比特翻转概率小于20%。在</p>
<p>像Lempel-Ziv这样的标准算法是为结构化数据(即非随机噪声的数据)设计的。像这样的随机噪声最好用简单的哈夫曼编码之类的东西来编码。但你最多可以节省30%,所以这是一个问题,它是否真的值得努力。在</p>