“结构信息论”是复杂科学的平凡解释么

最近在读这篇被广泛讨论的论文《From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence》时，我反复产生一种非常强烈的不适感。因为在读的过程中，我经常发现自己不知道信息在上下文中的具体定义是什么了。

论文从经典信息论入手，引用信息处理不等式，说确定性变换不会凭空增加信息量。这一点本身当然没有问题。但从这里开始：后面的论述，已经明显不再使用信息论中那个非常严格、冷静的“信息”定义了，却仍然不断借用它的名字和权威。

而真正让我开始警惕的，并不是某一个公式，而是它们在不自觉地跨越了尺度这一根本边界。

一、我们训练神经网络时，目标一开始就定义在宏观尺度上

在神经网络训练中，有一件事情往往被当作理所当然，但其实非常关键：
几乎所有训练任务的目标，都是在宏观尺度上定义的。

无论是棋类中的胜负、博弈中的价值函数，还是任务是否完成、预测是否正确，这些目标本身都是高度压缩的宏观判定。它们并不关心微观路径是如何一步步走出来的，只关心最终是否落入某个宏观等价类之中。

但与此同时，神经网络的参数、激活、梯度更新，本质上却发生在一个极其高维、微观的表示空间里。所谓“结构”，无论是权重结构、特征结构还是表示结构，都是在这个微观层级上被刻画和学习的。

问题恰恰就在这里：
在涌现和混沌存在的系统中，微观尺度与宏观尺度并不等价。

从微观到宏观，是一个多对一的映射；
从宏观回到微观，则不存在唯一对应。

这意味着，当学习目标定义在宏观尺度上，而学习过程却试图在微观生成机制中“还原”或“解释”这个目标时，这件事本身就是不适定的。不是因为算力不够，而是因为问题在定义上就不存在等价的反向路径。

二、一个可以站得住脚的例子：康威生命游戏中的滑翔机

可以用一个非常具体、几乎是教科书级的例子来确认：康威生命游戏中的滑翔机。

在生命游戏中，“形成了一个滑翔机”指的是，在某个时间步之后，棋盘上出现了一个满足特定局部形态、并且在后续演化中能够周期性平移的结构。这个判定只关心局部形态是否成立，以及它是否表现出滑翔机的动力学行为。

但这个事实本身已经是一次非常强的信息压缩。

它并不关心这个结构最早是在哪一步出现的，也不关心它是通过哪些中间结构、哪些碰撞过程逐步形成的。事实上，已经有大量已知的构造和经验观察表明：完全不同的初始配置和生成路径，可以在不同时间、不同位置，通过完全不同的中间态，产生形态上等价的滑翔机。

从某一时刻开始，如果棋盘上只剩下一个孤立的滑翔机，那么从这一刻往前看，系统的演化历史在原则上就是非唯一的。你可以枚举出大量不同的初始配置，它们都与这一宏观事实相容。

这意味着一件非常关键的事情：
从“现在有一个滑翔机”这一宏观事实，无法唯一推出它的初始配置或生成路径。

而且，这不是因为我们“还没找到足够聪明的算法”，而是因为逆问题在定义上就是不适定的。
“形成滑翔机”对应的是一个巨大的前像集合，而系统本身并没有提供任何判据来区分哪一个才是“真正的历史”。

即便你完全知道生命游戏的规则，即便你拥有无穷的计算时间和算力，这个结论依然成立。你最多只能得到一个可能历史的集合，而不可能从中选出一个唯一答案，因为“唯一答案”这一概念在宏观描述层级已经被抹掉了。

生成过程可以是完全确定的，但生成本身仍然是不可逆的。
这种不可逆性来自结构和尺度，而不是时间有限。

三、为什么“从生成过程理解目标”本身就是困难的

一旦把这一点放回神经网络训练中，许多现象会立刻变得自然。

模型被要求在一个微观、高维、连续的参数空间中更新自身，却要对齐一个定义在宏观尺度上的判定目标。在系统进入混沌区间后，微观扰动会被不断放大，而宏观目标却对这些扰动完全不敏感。

这就形成了一种根本性的错位：
模型在微观描述空间中努力拟合，而评价标准却只在宏观等价类上给出反馈。

从这个角度看，很多关于“结构信息增加”的说法，其实只是对这种错位现象的模糊描述，而不是对问题本身的真正解释。

四、伪随机数与混沌系统：被混在一起的两种不可逆性

论文会用伪随机数作为例子，来说明“结构信息”的存在，但这里存在一个关键混淆。

伪随机数的不可逆性，来源于观察者不知道种子，是认识论意义上的。一旦知道算法和种子，序列立刻变得可压缩、可还原。

而生命游戏、宏观态判定、神经网络高层表示的不可逆性，则来自多对一的结构映射。它们在定义上就不存在唯一逆像，即便给你无穷时间，也无法从宏观状态唯一还原微观状态。

把这两类系统放在同一条论证线上，可能是“结构信息论”论述中比较重要的问题之一。

五、两种时间，其实一直被混在一起

在生成意义上，时间是系统一步步演化的顺序。规则是确定的，但随着演化推进，宏观结果变得越来越不可预测。

而在信息与判定意义上，时间体现为压缩的方向。终局往往是确定的，而不确定的反而是起点，因为无数微观路径都可以导向同一个宏观结果。

这两种时间描述的是同一个不可逆映射的不同侧面，一旦被混成一条时间轴，就会产生“只要时间无穷，一切都能还原”的错觉。

六、为什么反向训练和判定式训练更有效

从这个视角出发，反向训练的有效性就不再神秘。

当模型从终局、从宏观判定出发学习时，它直接学习的是哪些结构是稳定的、哪些微观差异是可以忽略的。这等于绕过了生成过程中最混沌、最噪声化的那一段。

这不是模型更聪明，而是训练目标与信息压缩方向对齐了。

七、这类论文真正站得住脚的地方

在提出这些批评之后，反而可以更清楚地看到这类论文真正有价值的地方。

一方面，他们把“看 loss 曲线”这件事情显式地理论化了，不再只把 loss 当成工程指标，而是试图理解在给定模型规模和训练时间下，哪些结构根本学不到，哪些误差会稳定残留。

另一方面，他们提出了一个值得认真对待的假说：神经网络本身，或许可以被用来度量问题的复杂度。通过 scaling law，通过模型规模与性能之间的关系，去近似刻画某个任务在当前表征体系下的“有效复杂度”。

这不是信息论意义上的复杂度，而是一种与可学习性直接相关、经验上可测的复杂度。

八、结语：问题不在信息，而在尺度与表征

真正的问题从来不在于“信息有没有增加”，而在于我们是否清楚自己正在使用哪一个尺度、哪一种表征。

一旦承认微观描述与宏观目标之间本来就不等价，一旦承认不可逆性来自结构压缩而非时间有限，很多争论就会自然消失。经典信息论并没有失败，它只是从一开始就没有试图回答这些问题。

真正需要被认真对待的，是尺度差异、表征选择，以及在这些约束下，学习究竟意味着什么。

“结构信息论”是复杂科学的平凡解释么

Written by:

gfgkmn