文能提笔控萝莉,武能床上定人妻。进可欺身压正太,退能提臀迎众基。 收藏本站
登陆 / 注册 搜索

阅读:5.1K   回复: 1

压缩文件是什么原理?

[复制链接]
空谷幽兰 踏破虚空 2019-12-18 18:00 |显示全部楼层

从前车马很慢,书信很远,一生只够爱一个人,但是可以纳很多妾啊!

精华达人 主题破百 以坛为家 论坛元老 五周年纪念
我们知道在大多数时候,信息是不能由少变多的,除了靠联想,这也是目前“还原”图片马赛克唯一的办法。


但在我们实际使用计算机的时候,有一种我们经常使用的技术——文件的压缩、解压。这个过程难道不是信息的由多到少,再由少到多的过程吗?

🦴🔥🌶❗🦊‍还真不是。

文件的信息量并没有在压缩的过程中减少,因此解压时也就不存在“增多”一说。

那压缩文件是如何做到在保留信息含量的情况下,让文件变小的呢?
🖕🌧🍍🅿🐞‍
我们都知道,电脑上的数据都是以一连串的二进制信息,也就是“0”和“1”的形式存储的。

压缩文件是什么原理? 8b5421353a9fc9f9905d17ea548b-1458897.jpg!d.jpg

比如电脑CPU,里面是成千上万的晶体管,这些晶体管只有两种状态,通电和断电。“0”代表断电,“1”代表通电。
🙌⛴🥑☣🐢‏
再比如硬盘中存储的并不是我们屏幕中看到的文字或图片,而是硬盘中的盘片,通过磁化,用磁极S和N极代表数字“0”和数字“1”来存储信息的。

而一个“0”或“1”的大小就是一比特(Bit),8比特等于一子节(Byte),1024字节就是我们更为常见的 1KB。以此类推,1024KB 等于1MB,1024MB 等于 1GB。
👳‌🛍🤑✍
知道了数据的大小后,便可以来看电脑实际上在处理的二进制编码了。

引用

01000001 表示字母A

01000010 表示字母B👨‍⚕️‌💍🧲😭🙌

01000011 表示字母C

01000100 表示字母D



🤳🎠🍓🅰🐟‌

这一段国际上常用的ASCII编码中字母A-D对应的二进制表示方法。不难看出这些编码中含有大量重复的部分,比如D前面五位数字都是01000,每行都有表示字母字样。

而压缩文件的原理,本质上就是通过找规律,简化这些0和1之间的排列组合。

比如这里就可以用上「字典算法」压缩这个文件。

👨‍🎨‍🎩🧲😍👁



字典算法,即把文本中出现频率较多的单词或词汇组合做成一个对应的字典列表,并用特殊代码来表示这个单词或词汇,类似我们小时候解方程时把一个等式列为未知数。

如果这里我们将「01000」列为X,「表示字母」列为Y,就可以这样压缩上面那段编码:
引用

X001YA
💅🚐🥛❗🦋‎
X010YB

X011YC
🧑‍🌾‎👞💳😈✍
X100YD




换种方法解释就是如果你说:
👵‍💎🪗😰👎
吃火锅拉肚子,我昨天吃火锅了,我今天拉肚子了

用字典算法就可以将这句话压缩成:

我吃AB,我昨天A了,我今天B了

👨🦱‍👖🗝😭



当然,同样的内容,其实还可以用「固定位长算法」,「RLE」等等算法来进行压缩,但原理都是通过找规律,再进行归纳整理,这就完成了一次压缩。

而有的时候,有的文件可以压缩的很小,有的压缩完却几乎没有变化也是这个原因。内容相似之处较多时则容易压缩的很小,反正则不容易压缩。

👄🚂🍽®🦟‏
上一篇
下一篇

评分

参与人数 1成长值 +3 金币 +3 展开 理由
wx_sA3aaA5N + 3 + 3

查看全部评分

帖子热度 5125 ℃

云问刀 「初入古黑」 2019-12-18 18:00 |显示全部楼层

这个用户很懒,还没有填写自我介绍呢~

我不在江湖,但江湖中有我的传说;
我身在江湖,江湖里却没有我得传说。
您需要登录后才可以回帖 登录 | 免费注册  

本版积分规则

快速回复 返回列表