Why decoder-only? LLM架构的演化之路

2024年8月16日修改

Zhongmei 智见AGI｜阅读原文

转载请联系原作者取得授权

common.docs_name - LarkCCM_Docs_Menu_Image

如何根据大模型架构进行选型

©作者 | Zhongmei

来源 | 神州问学

引言

本文想为大型语言模型（LLMs）及其下游自然语言处理（NLP）任务的实践者和用户提供一份全面且实用的指南。将从模型架构的角度出发，对比不同架构的特点，希望可以从最底层给大模型选型一些参考意见。 以及针对大模型架构的演变过程做出探究，分析decoder-only成为主流架构背后的原因。​

大模型常见架构

LLM（大型语言模型）的架构命名某种程度上是混乱而反常的。所谓的“decoder-only（仅解码器）”实际上意味着“自回归编码器-解码器”。“encoder only（仅编码器）” 实际上包含一个编码器和解码器（非自回归），而所谓的“encoder-decoder（编码器-解码器）”真实含义是”自回归编码器-解码器“​

—— Yann Lecun

这个小节会简要介绍常见的不同的大模型的模型架构和用例。目前比较常见的是将其分类为：encoder-only, decoder-only以及encoder-decoder。但是正如杨立昆推特帖子中说的，其实这些名称比较难理解。个人觉得最好理解的方式如下：机器学习模型都是根据给定的输入来预测输出，在NLP模型中把出处理输入的组件叫做Encoder，它负责将输入的文字序列转化为一种隐藏表示（语义上丰富表示的特征向量）；而生成输出的组件叫做Decoder，负责试用隐藏表达来生成目标文字序列。 所以从这种角度讲所有的模型都可以从”Encoder-decoder“的角度来理解，差异在于Encoder、Decoder的注意力模式以及如何共享参数。所以个人觉得更直观的方法是上表格。​

表一：模型架构

Why decoder-only? LLM架构的演化之路​

Why decoder-only? LLM架构的演化之路