State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程

用户1961

2024年6月27日修改

作者：天空之城城主 | Web3天空之城

原文：https://mp.weixin.qq.com/s/zmEGzm1cdXupNoqZ65h7yg

前言

OpenAI的创始人之一，大神Andrej Karpthy刚在微软Build 2023开发者大会上做了专题演讲：State of GPT（GPT的现状）。​

common.docs_name - LarkCCM_Docs_Menu_Image

在这个朴实无华的题目之下，Andrej带来的是一场超级精彩的分享。​

他详细介绍了如何从GPT基础模型一直训练出ChatGPT这样的助手模型（assistant model）。作者不曾在其他公开视频里看过类似的内容，这或许是OpenAI官方第一次详细阐述其大模型内部原理和RLHF训练细节。​

难能可贵的是，Andrej不仅深入了细节， 还高屋建瓴的抽象了大模型实现中的诸多概念，牛人的洞察就是不一样。​

比如，Andrej非常形象的把当前LLM大语言模型比喻为人类思考模式的系统一（快系统），这是相对于反应慢但具有更长线推理的系统二（慢系统）而言。这只是演讲里诸多闪光点的其中一个。​

并且，Andrej真的有当导师的潜力，把非常技术的内容讲得深入浅出，而又异常透彻。这个演讲完全可以让非专业人士也能理解，并且，认真看完演讲后会有一种醍醐灌顶的感觉。这场主题演讲是如此精彩，以至于作者认为，所有关心LLM大语言模型的人都不容错过。所以，在制作视频之余，特以此文整理，和大家分享。此外，在本文最后还有一些拓展阅读，同样非常推荐，有兴趣的读者可以自取。本次演讲的精校完整中文版视频的B站传送门：

https://www.bilibili.com/video/BV1ts4y1T7UH（视频号莫名不让分享这个视频，大家移步b站吧）

（演讲全文）大家好。我很高兴在这里向您介绍 GPT 的状态，更广泛地介绍大型语言模型快速发展的生态系统。我想把演讲分成两部分：在第一部分我想告诉你我们是如何训练 GPT 助手的；然后在第二部分中，我们将了解如何将这些助手有效地用于您的应用程序。

首先让我们看一下如何训练这些助手的新兴秘诀，并记住这一切都是非常新的，并且仍在迅速发展。​

但到目前为止，食谱看起来像这样。这是一张有点复杂的幻灯片，我将逐一介绍它。​

粗略地说，我们有四个主要阶段：预训练、有监督微调、奖励建模、强化学习，依次类推。现在在每个阶段我们都有一个数据集来支持。我们有一个算法，我们在不同阶段的目的，将成为训练神经网络的目标。然后我们有一个结果模型，然后在上图底部有一些注释。​

Pretraining 预训练

我们要开始的第一个阶段是预训练阶段。

这个阶段在这个图中有点特殊：这个图没有按比例缩放，这个阶段实际上是所有计算工作基本上发生的地方，相当于训练计算时间的 99%。因此，这就是我们在超级计算机中使用数千个 GPU 以及可能进行数月的训练来处理互联网规模数据集的地方。其他三个阶段是微调阶段，更多地遵循少量 GPU 和数小时或数天的路线。那么让我们来看看实现基础模型的预训练阶段。​

首先，我们要收集大量数据。这是我们称之为数据混合的示例，该示例来自 Meta 发布的这篇论文，他们发布了这个 Llama 基础模型。​

可以大致看到进入这些集合的数据集的种类，我们有common crawl这只是一个网络爬取，C4也是common crawl，然后还有一些高质量的数据集。例如，GitHub、维基百科、书籍、ArXiv论文存档、StackExchange问答网站等。这些都混合在一起，然后根据给定的比例进行采样，形成 GPT 神经网络的训练集。​

现在，在我们实际训练这些数据之前，我们需要再经过一个预处理步骤，即标记化（tokenization）。​

这基本上是将我们从互联网上抓取的原始文本翻译成整数序列，因为这是 GPT 运行的原生表示。标记化是文本片段和标记与整数之间的一种无损转换，这个阶段有许多算法。通常您可以使用诸如字节编码之类的东西，它迭代地合并小文本块并将它们分组为标记。在这里我展示了这些标记的一些示例块，然后这是将实际馈入Transformer的原始整数序列。​

现在我在这里展示了两个类似的例子，用于控制这个阶段的超参数。​

GPT4，我们没有发布太多关于它是如何训练的信息，所以我使用 GPT3 的数字；GPT3 现在有点老了，大约三年前。但是Llama是 Meta 的一个相当新的模型。这些大致是我们在进行预训练时要处理的数量级：词汇量通常是几万个标记。上下文长度通常是 2,000、4,000，现在甚至是 100,000，这决定了 GPT 在尝试预测序列中的下一个整数时将查看的最大整数数。你可以看到，Llama 的参数数量大概是 650 亿。现在，尽管与 GPT3 的 1750 亿个参数相比，Llama 只有 65 个 B 参数，但 Llama 是一个明显更强大的模型，直观地说，这是因为该模型的训练时间明显更长，训练了1.4 万亿标记而不是 3000 亿标记。所以你不应该仅仅通过模型包含的参数数量来判断模型的能力。这里我展示了一些粗略的超参数表，这些超参数通常用于指定 Transformer 神经网络。比如头的数量，尺寸大小，层数等等。在底部，我展示了一些训练超参数。例如，为了训练 65 B 模型，Meta 使用了 2,000 个 GPU，大约训练了 21 天，大约花费了数百万美元。这是您在预训练阶段应该记住的粗略数量级。​
现在，当我们实际进行预训练时，会发生什么？一般来说，我们将获取我们的标记并将它们放入数据批次中。​

我们有这些数组将馈入Transformer，这些数组是 B，批量大小，这些都是按行堆叠的独立示例，B 乘以 T，T 是最大上下文长度。在我的这个图里，长度只有十个，实际工作里这可能是 2,000、4,000 等等。这些是非常长的行。我们所做的是获取这些文档并将它们打包成行，然后用这些特殊的文本结束标记将它们分隔开，基本上是为了告诉Transformer新文档从哪里开始。​

这里我有几个文档示例，然后将它们扩展到这个输入中。现在，将把所有这些数字输入到 Transformer 中。​

我们只关注一个特定的单元格，但同样的事情会发生在这个图中的每个单元格上。让我们看看绿色单元格。绿色单元会查看它之前的所有标记，所有标记都是黄色的，我们将把整个上下文输入到 Transformer 神经网络中，Transformer 将尝试预测 序列中的下一个标记，在本例中为红色。不幸的是，我现在没有太多时间来详细介绍Transformer这个神经网络架构。（注：特别棒和巧的，Andrej做过一次斯坦福课程，专门深入讲解了Transformer神经网络架构，同样非常推荐，中文版视频附在本文结尾）对于我们的目的来说，Transformer只是一大堆神经网络的东西，通常有几百亿个参数，或者类似的东西。当然，当您调整这些参数时，您会得到这些单元格中的每一个单元格的预测分布略有不同。例如，如果我们的词汇表大小是 50,257 个标记，那么我们将拥有那么多数字，因为我们需要为接下来发生的事情指定概率分布。基本上，我们有可能发生任何事情。现在，在这个特定的例子中，对于这个特定的单元格，513 将是下一个标记，因此我们可以将其用作监督源来更新Transformer的权重。将同样的做法应用于并行中的每个单元格，并且不断交换批次，并且试图让Transformer对序列中接下来出现的标记做出正确的预测。​

让我更具体地向您展示当您训练其中一个模型时的情况。

这实际上来自纽约时报，他们在莎士比亚上训练了一个小的 GPT，这是莎士比亚的一小段，他们在上面训练了一个 GPT。一开始，在初始化时，GPT 以完全随机的权重开始，因此也将获得完全随机的输出。但是，随着时间的推移，当训练 GPT 的时间越来越长时，我们会从模型中获得越来越连贯和一致的样本。当然，你从中抽样的方式是预测接下来会发生什么，你从那个分布中抽样，然后不断将其反馈到过程中，基本上就是对大序列进行抽样。到最后，你会看到 Transformer 已经学会了单词，以及在哪里放置空格，在哪里放置逗号等等。随着时间的推移，模型正在做出越来越一致的预测。​

然后以下这些，是您在进行模型预训练时会查看的图类型。

State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程​

State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程