最近在读这篇被广泛讨论的论文《From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence》时,我反复产生一种非常强烈的不适感。因为在读的过程中,我经常发现自己不知道信息在上下文中的具体定义是什么了。
论文从经典信息论入手,引用信息处理不等式,说确定性变换不会凭空增加信息量。这一点本身当然没有问题。但从这里开始:后面的论述,已经明显不再使用信息论中那个非常严格、冷静的“信息”定义了,却仍然不断借用它的名字和权威。
而真正让我开始警惕的,并不是某一个公式,而是它们在不自觉地跨越了尺度这一根本边界。
一、我们训练神经网络时,目标一开始就定义在宏观尺度上
在神经网络训练中,有一件事情往往被当作理所当然,但其实非常关键:
几乎所有训练任务的目标,都是在宏观尺度上定义的。
无论是棋类中的胜负、博弈中的价值函数,还是任务是否完成、预测是否正确,这些目标本身都是高度压缩的宏观判定。它们并不关心微观路径是如何一步步走出来的,只关心最终是否落入某个宏观等价类之中。
但与此同时,神经网络的参数、激活、梯度更新,本质上却发生在一个极其高维、微观的表示空间里。所谓“结构”,无论是权重结构、特征结构还是表示结构,都是在这个微观层级上被刻画和学习的。
问题恰恰就在这里:
在涌现和混沌存在的系统中,微观尺度与宏观尺度并不等价。
从微观到宏观,是一个多对一的映射;
从宏观回到微观,则不存在唯一对应。
这意味着,当学习目标定义在宏观尺度上,而学习过程却试图在微观生成机制中“还原”或“解释”这个目标时,这件事本身就是不适定的。不是因为算力不够,而是因为问题在定义上就不存在等价的反向路径。
二、一个可以站得住脚的例子:康威生命游戏中的滑翔机
可以用一个非常具体、几乎是教科书级的例子来确认:康威生命游戏中的滑翔机。
在生命游戏中,“形成了一个滑翔机”指的是,在某个时间步之后,棋盘上出现了一个满足特定局部形态、并且在后续演化中能够周期性平移的结构。这个判定只关心局部形态是否成立,以及它是否表现出滑翔机的动力学行为。
但这个事实本身已经是一次非常强的信息压缩。
它并不关心这个结构最早是在哪一步出现的,也不关心它是通过哪些中间结构、哪些碰撞过程逐步形成的。事实上,已经有大量已知的构造和经验观察表明:完全不同的初始配置和生成路径,可以在不同时间、不同位置,通过完全不同的中间态,产生形态上等价的滑翔机。
从某一时刻开始,如果棋盘上只剩下一个孤立的滑翔机,那么从这一刻往前看,系统的演化历史在原则上就是非唯一的。你可以枚举出大量不同的初始配置,它们都与这一宏观事实相容。
这意味着一件非常关键的事情:
从“现在有一个滑翔机”这一宏观事实,无法唯一推出它的初始配置或生成路径。
而且,这不是因为我们“还没找到足够聪明的算法”,而是因为逆问题在定义上就是不适定的。
“形成滑翔机”对应的是一个巨大的前像集合,而系统本身并没有提供任何判据来区分哪一个才是“真正的历史”。
即便你完全知道生命游戏的规则,即便你拥有无穷的计算时间和算力,这个结论依然成立。你最多只能得到一个可能历史的集合,而不可能从中选出一个唯一答案,因为“唯一答案”这一概念在宏观描述层级已经被抹掉了。
生成过程可以是完全确定的,但生成本身仍然是不可逆的。
这种不可逆性来自结构和尺度,而不是时间有限。
三、为什么“从生成过程理解目标”本身就是困难的
一旦把这一点放回神经网络训练中,许多现象会立刻变得自然。
模型被要求在一个微观、高维、连续的参数空间中更新自身,却要对齐一个定义在宏观尺度上的判定目标。在系统进入混沌区间后,微观扰动会被不断放大,而宏观目标却对这些扰动完全不敏感。
这就形成了一种根本性的错位:
模型在微观描述空间中努力拟合,而评价标准却只在宏观等价类上给出反馈。
从这个角度看,很多关于“结构信息增加”的说法,其实只是对这种错位现象的模糊描述,而不是对问题本身的真正解释。
四、伪随机数与混沌系统:被混在一起的两种不可逆性
论文会用伪随机数作为例子,来说明“结构信息”的存在,但这里存在一个关键混淆。
伪随机数的不可逆性,来源于观察者不知道种子,是认识论意义上的。一旦知道算法和种子,序列立刻变得可压缩、可还原。
而生命游戏、宏观态判定、神经网络高层表示的不可逆性,则来自多对一的结构映射。它们在定义上就不存在唯一逆像,即便给你无穷时间,也无法从宏观状态唯一还原微观状态。
把这两类系统放在同一条论证线上,可能是“结构信息论”论述中比较重要的问题之一。
五、两种时间,其实一直被混在一起
在生成意义上,时间是系统一步步演化的顺序。规则是确定的,但随着演化推进,宏观结果变得越来越不可预测。
而在信息与判定意义上,时间体现为压缩的方向。终局往往是确定的,而不确定的反而是起点,因为无数微观路径都可以导向同一个宏观结果。
这两种时间描述的是同一个不可逆映射的不同侧面,一旦被混成一条时间轴,就会产生“只要时间无穷,一切都能还原”的错觉。
六、为什么反向训练和判定式训练更有效
从这个视角出发,反向训练的有效性就不再神秘。
当模型从终局、从宏观判定出发学习时,它直接学习的是哪些结构是稳定的、哪些微观差异是可以忽略的。这等于绕过了生成过程中最混沌、最噪声化的那一段。
这不是模型更聪明,而是训练目标与信息压缩方向对齐了。
七、这类论文真正站得住脚的地方
在提出这些批评之后,反而可以更清楚地看到这类论文真正有价值的地方。
一方面,他们把“看 loss 曲线”这件事情显式地理论化了,不再只把 loss 当成工程指标,而是试图理解在给定模型规模和训练时间下,哪些结构根本学不到,哪些误差会稳定残留。
另一方面,他们提出了一个值得认真对待的假说:神经网络本身,或许可以被用来度量问题的复杂度。通过 scaling law,通过模型规模与性能之间的关系,去近似刻画某个任务在当前表征体系下的“有效复杂度”。
这不是信息论意义上的复杂度,而是一种与可学习性直接相关、经验上可测的复杂度。
八、结语:问题不在信息,而在尺度与表征
真正的问题从来不在于“信息有没有增加”,而在于我们是否清楚自己正在使用哪一个尺度、哪一种表征。
一旦承认微观描述与宏观目标之间本来就不等价,一旦承认不可逆性来自结构压缩而非时间有限,很多争论就会自然消失。经典信息论并没有失败,它只是从一开始就没有试图回答这些问题。
真正需要被认真对待的,是尺度差异、表征选择,以及在这些约束下,学习究竟意味着什么。