这个小节会简要介绍常见的不同的大模型的模型架构和用例。目前比较常见的是将其分类为:encoder-only, decoder-only以及encoder-decoder。但是正如杨立昆推特帖子中说的,其实这些名称比较难理解。个人觉得最好理解的方式如下:机器学习模型都是根据给定的输入来预测输出,在NLP模型中把出处理输入的组件叫做Encoder,它负责将输入的文字序列转化为一种隐藏表示(语义上丰富表示的特征向量);而生成输出的组件叫做Decoder,负责试用隐藏表达来生成目标文字序列。 所以从这种角度讲所有的模型都可以从”Encoder-decoder“的角度来理解,差异在于Encoder、Decoder的注意力模式以及如何共享参数。所以个人觉得更直观的方法是上表格。