信息爆炸的本质:压缩、解压与语义冗余
1. 人类总结是信息压缩
人类在长期学习和经验积累后,往往会提炼出一些高度总结的精辟言论,这其实就是对复杂信息的一次有效压缩。
这种压缩类似于哈夫曼编码:我们优先保留高频且具代表性的信息,丢弃冗余的细节,最终得到可快速传递的结论。
然而,这种压缩也存在一个代价:
被压缩的信息,在不同语境下会被解读为不同的东西,压缩过程不可避免地丢失了部分语义,导致理解有时会发生偏差。
2. LLM 提取的是信息联想
当我们用 LLM(大语言模型)进行创作时,模型往往会围绕这些人类总结出的语言精髓,在语义空间中展开联想补全。
这就像模型在「解压」这些信息,虽然它解压出来的质量不一定好(可能逻辑并不严谨),但它生成的信息量一定是增加的,这是 LLM 天然的特性:
它善于扩写,但不擅长收敛。
换句话说:
- 人类喜欢写「浓缩」的句子。
- 模型喜欢写「展开」的句子。
这是两种不同的压缩-解压策略。
3. 写作的风险:为了写而写
当 LLM 参与越来越多写作后,容易进入一种状态:为了写而写,为了生成而生成。
信息的有效性和稀缺性会逐步下降,表面信息爆炸,实际上信噪比降低。这其实也是一种信息加密的副作用:
真正有用的信息被大量冗余信息包裹,难以被直接获取。
这在自然界中也有类似现象,比如:
- DNA 中有大量冗余基因,真正表达的序列很少。
- 网络通信中大量冗余数据用来防止丢包。
从这个角度来看,信息冗余某种程度上也是保护有价值信息的一种手段。
4. 压缩 - 解压是信息传递的宿命
无论是语言、声音还是图像,所有信息的传播都不可避免地经历:
- 压缩(表达):受限于传递介质,必须选取有限信息输出。
- 解压(接收):受限于接收者模型(人脑 or LLM),只能重建有限信息。
人脑和 LLM 的差异,实际上就是不同的解压算法。
- 人脑:偏向抽象、关联、情境化理解。
- LLM:偏向概率、共现、模式化理解。
因此,信息膨胀本质上不是因为信息真的多了,而是因为不同的解压路径,制造了更多的信息副本与变体。
5. 真正的核心并不复杂
即便信息爆炸,真正推动世界的「理」其实并不复杂。
信息经过再多层的压缩与解压,最后留下的核心结构依然有限。
- 牛顿三大定律,无数物理现象的基础。
- 热力学定律,驱动能量转换的规律。
- 人类行为背后的心理学模型,也就那么几个。
无论信息如何表征、如何包装,核心真理总是少数。
小结
- 信息生成是压缩 - 解压的循环。
- 大模型放大了信息冗余与语义膨胀。
- 写作过程容易陷入「为了写而写」的陷阱。
- 不同的认知系统,是不同的解压算法。
- 信息的爆炸是现象,本质是少数核心规律的无限衍生。
信息的形式可以万千,但理的内核永远有限。
作者:罗植馨
GitHub: github.com/luoluoter
- Title: 信息爆炸的本质:压缩、解压与语义冗余
- Author: Luo Zhixin
- Created at : 2025-07-02 09:21:48
- Updated at : 2025-07-02 09:24:04
- Link: https://luoluoter.github.io/2025/07/02/information-transmit-make-it-redundancy/
- License: This work is licensed under CC BY-NC-SA 4.0.