LLM（廿六）：从信息论的角度解释 scaling law

2024年8月21日修改

作者：紫气东来

原文：https://zhuanlan.zhihu.com/p/687278...

1943年，当亚欧大陆东西两端都陷入焦灼的战火时，远隔大洋的美国，有两个年轻人因为这场战争走到了一起，他们就是：31 岁的图灵(Alan Turing，1912-1954) 和 27 岁的香农(Claude Shannon，1916-2001)。这也许是人类最精彩的会面之一，彼时他们分别拿着“矛”和“盾”：当时图灵在当是破译了包括希特勒通话在内的多项德军秘密通讯的密码学破译专家，而香农当时的工作是通过数学方法证明“Ｘ系统”——这是美国总统罗斯福到英国首相丘吉尔之间的加密通讯系统。​

尽管因为保密的原因，二人不能在密码学上进行讨论，但却可以对当时最前沿的话题，包括机器思维、信息科学、计算理论、智能等进行讨论，事实上这些问题至今仍然是最前沿的研究领域。在这次会面不久，二人就在各自的领域取得了巨大的成就：​

•
1948年，香农发表题为《通信的数学理论》的论文，正式开创了科学的信息论​

•
1950年，图灵发表《计算机器和智能》，提出了“图灵测试” ，打开了人工智能的大门​

时至今日，尽管模型、数据、算力都发生了翻天地覆的变化，人工智能和信息技术的发展仍然没有超越他们当年讨论的范畴。览前贤，思己任，希望在前辈们建立的大厦基础上，我辈能够薪尽火传，在自己的领域做出各自力所能及的贡献。​

一、语言模型的信息论基础

考虑生成式的语言模型，其概率估计 通常为每个token的概率的乘积，即​

common.docs_name - LarkCCM_Docs_Menu_Image

有了概率之后，便可以定义更多的量了。

1.1 信息熵

假设随机变量

在属于集合

，则

的熵定义为：

•
当对数底数是
时，单位是bit，​

•
当对数底数是
时，单位是nat(奈特)。​

在自然语言领域，令

，则熵还可以进一步表示为：

其中

当序列长度无限大的情况下，香农将其定义为该语言的熵，即：
​

根据这个定义，熵是使用无限数量的符号来计算的。在实践中，只能从有限的文本样本中近似经验熵来近似任何语言的熵。​

接下来分析一下语言的信息熵的边界问题。任何分布的最小可能熵为零，对于语言来说，当一种语言只有一个符号或者某个符号的概率为 1 时，该语言的熵才能为零，即​

概率分布的熵在均匀分布时最大化，对于共享同一组符号（词汇）的所有语言，当其所有符号以相等概率出现的时候其熵最大，以   V V 表示词表大小，则有： ​

•
如果词表大小为 27(26个字母+空格)，则
​

•
如果词表大小为 42000，则
​

这样我们就确定了语言的信息熵的上下界，接下来探究其单调性问题，假设来自于同一语言数据库（独立同分布）的长度不同的文本，则有：​

其中最为关键的一步是
，所表达的含义是随着前文长度的增加，预测的准确性会提高。因此则有：​

这意味着随着数据量的增加，其理论上的经验熵值会逐渐减小，并逐步接近最真实的语言熵。​

下表展示了几个主要数据集的经验熵，可以看到满足以上发现的规律，另外可以看到，大多数值仍然位于香农 1950 年估计的范围内，可见其超越时空的远见卓识。​

LLM（廿六）：从信息论的角度解释 scaling law​

LLM（廿六）：从信息论的角度解释 scaling law