你的文件被篡改了吗？一文读懂 MD5 “数字指纹”

MD5（Message-Digest Algorithm 5）曾经是加密界的“流量之王”，虽然现在因为安全性问题跌落神坛，但它依然是理解哈希算法最好的入门案例。

一、：深度解析

MD5 由密码学大神 Ron Rivest（RSA 算法里的那个 R）在 1991 年设计。它将任意长度的输入转化为一个 128位（16字节） 的固定散列值（通常用 32 位十六进制字符串表示）。

1. 算法核心流程

MD5 的处理是以 512 位（64字节） 的分组为单位进行的。

Step 1: 填充 (Padding)

消息必须进行填充，使其长度模 512 余 448
方法：先在末尾填一个 bit 1，然后填无数个 bit 0，直到满足条件。哪怕原消息长度刚好满足，也必须填满一个新的分组。

Step 2: 追加长度 (Append Length)

在填充后的消息末尾，追加一个 64位 的块，用于存储原始消息的长度。
这使得消息总长度刚好是 512 的整数倍。

Step 3: 初始化缓冲区 (Initialize MD Buffer)

MD5 使用 4 个 32 位的寄存器（A, B, C, D）来保存中间结果和最终结果。初始值是固定的“魔数”（小端序）：

$A = \text{0x67452301}$
$B = \text{0xEFCDAB89}$
$C = \text{0x98BADCFE}$
$D = \text{0x10325476}$

Step 4: 分组处理（主循环）

这是算法的核心。对于每一个 512 位的消息分组，执行 4 轮操作，每轮 16 步，总共 64 步。

每一轮使用不同的非线性函数（我这个编辑器里显示不了数学符号，所以就不列这四轮了，有想了解的可以网上查一下）

核心变换公式（我这个编辑器里显示不了数学符号，所以就不列这公式了，有想了解的可以网上查一下）

Step 5: 输出

处理完所有分组后，将 A, B, C, D 级联起来，就是最终的 MD5 值。

2. 安全性崩塌（王小云教授的攻击）

MD5 曾经被认为无法产生碰撞（Collision）——即找到两个不同的输入 $M_1 \neq M_2$ ，使得 $\text{Hash}(M_1) = \text{Hash}(M_2)$ 。

2004 年，中国密码学家王小云教授震惊了世界。她找到了一种算法，可以在极短时间内构造出两个 MD5 值完全相同的文件。这宣告了 MD5 在数字签名和高安全认证领域的死刑。

现状：不要在保存用户密码（除非加重盐）、数字证书中使用 MD5。
由于：碰撞攻击并不意味着可以通过 Hash 反推原文，所以 MD5 依然广泛用于文件完整性校验（如下载文件校验）。

二、实景举例

我们在下载软件或游戏时，经常会在下载页面看到一行神秘的字符串：MD5: e10adc3949ba59abbe56e057f20f883e。

这串乱码到底是什么？为什么很多程序员说它“死了”，但又到处都在用它？

今天咱们用最接地气的方式聊聊这个互联网世界的**“验尸官”——MD5**。

1. 什么是 MD5？——数据的“指纹”

MD5 全称是“消息摘要算法”。别被名字吓到，你把它理解为**“数字指纹生成器”**就行。

它的功能极其简单：

不管你给它什么数据——是一句“Hello World”，还是一部 2GB 的高清电影，MD5 都会经过一通疯狂的数学搅拌，最后吐出一个固定长度的字符串（32个字符）。

这个指纹有两个铁律：

独一无二（理想状态下）：你的指纹和我不一样。文件 A 和文件 B 的 MD5 也应该不一样。
雪崩效应：哪怕你只改了文件里的一个标点符号，生成的 MD5 值也会天翻地覆，完全看不出之前的影子。

2. MD5 有什么用？——“防调包”

想象一下，我要快递寄给你一个乐高模型（原文件）。

路上快递员可能会把模型摔坏，或者有人偷偷换了一块积木（黑客篡改）。你收到后，怎么知道这还是不是我发出的那个原装货？

用 MD5 就很简单：

我在寄出前，给这个模型拍个“指纹”（计算 MD5），发微信告诉你：指纹是 A1B2...。
你收到模型后，也用工具算一下它的 MD5。
对比一下：
- 如果是 A1B2...：恭喜，文件完美无缺，一个比特都没坏。
- 如果不一样：警报！文件损坏或被黑客植入了木马。

这就是为什么下载网站都要贴 MD5 码，它是为了证明**“原汤化原食”**。

3. 既然它是指纹，能用来加密密码吗？

很多年前，网站确实是这样存密码的。

你在数据库里存的不是密码明文 123456，而是它的 MD5 e10adc...。

黑客偷了数据库，看到一堆乱码，也还原不出你的密码。因为 MD5 就像榨汁机：

把苹果（密码）放进去能变成苹果汁（MD5）。
但你没法把苹果汁还原成苹果。这叫**“不可逆”**。

但是（划重点）！现在这么做很危险！

因为黑客搞了一个**“彩虹表”**——他们把常见的 10 亿个密码提前算好 MD5 存起来。偷到你的 MD5 后，一查表，马上就知道你的密码是 123456 了。

所以，现在的程序员如果要用 MD5 存密码，必须**“加盐（Salt）”**：在你的密码里随机撒点佐料再榨汁，让黑客查不了表。

4. MD5 “死”了吗？

你可能听说过，中国的王小云教授破解了 MD5。

这是真的。王教授证明了：我们可以人为制造出两个内容不同，但 MD5 指纹一模一样的文件。

这意味着，在涉及国家安全、银行转账、电子合同这些极度敏感的领域，MD5 已经不可信了（黑客可以伪造合同）。

但在我们日常校验个电影有没有下坏、代码有没有缺损这些场景里，MD5 依然是速度最快、最方便的选择。

总结一下：

MD5 是榨汁机：进去容易，还原不可能。
MD5 是验尸官：改动一个字，指纹全变。
警告：别用它直接存银行密码，但用它校验下载文件，依然真香。

导航