LLM（十五）：反思RLHF，如何更加高效训练有偏好的LLM

飞书用户1961

2024年8月20日修改

作者：紫气东来

原文：https://zhuanlan.zhihu.com/p/634707...

一、对 RLHF 的反思

当前 LLM 蓬勃发展，各种模型和方法层出不穷，但总体看来，但是朝着以下3点目标前进：​

•
有益性 ：LLM 在需要时遵循说明、执行任务、提供答案，以实现对用户意图理解并提供有益帮助。​

•
真实性 ：LLM 提供真实、准确信息并承认其自身不确定性和局限性的能力。​

•
无害性 ：避免有毒的、有偏见的或冒犯性的反应并拒绝协助危险活动的特性。​

由于预训练模型的通用性，在以上3个方面均有所不足，而通过 instruction learning 的方式可以一定程度上激发模型的泛化能力，但是不能很好地对齐人类偏好，因此就有了 RLHF 的方法。​

common.docs_name - LarkCCM_Docs_Menu_Image

RLHF 的核心思想围绕训练奖励模型展开。 即利用人类反馈来生成人类偏好数据集，来训练代表特定任务所需结果的奖励函数。然后利用奖励模型，通过强化学习算法（如PPO）迭代地改进 SFT 模型，改变其内部文本分布以优先考虑人类喜欢的序列。 在这种意义上说，奖励模型是将“人类偏好偏差”引入 Baseline 模型的一种手段。如果想了解更多 RLHF 的细节，可参考笔者之前的文章：​

另外笔者也对一些RLHF进行了复现，可参考：

当然，RLHF 在实践过程中也存在一些不足，体现在：

•
问题1：人工产生的偏好数据集成本较高，很难量产；​

•
问题2：三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢；​

•
问题3：PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高。​

针对以上几点问题，当前的改进优化思路主要有几个方向，以下将逐步介绍和讨论。​

二、改进方式一：AI 专家替代派

此类方法通常是用来解决问题1或者问题3，即使用AI模型来替换人工标注数据形成偏好，或者指导模型训练。​

2.1 RLAIF

该方法的核心在于通过AI 模型监督其他 AI 模型，即在SFT阶段，从初始模型中采样，然后生成自我批评和修正，然后根据修正后的反应微调原始模型。 在 RL 阶段，从微调模型中采样，使用一个模型来评估生成的样本，并从这个 AI 偏好数据集训练一个偏好模型。 然后使用偏好模型作为奖励信号对 RL 进行训练，即 RL from AI Feedback（RLAIF）。​

RLAIF 整过过程可分为 监督训练阶段 和 强化学习阶 段两部分。​

阶段一：监督训练阶段，此阶段包括以下步骤：

1.
获得 Helpful 模型对 red teaming提示的响应。 因此，在这些情况下，模型的响应可能是有害的。​

2.
在提供了一套应该遵守的原则，让 Helpful 模型据此评论自己的响应。​

3.
要求 Helpful 模型根据其提供的评论修改其先前的响应。​

4.
重复步骤 2 和 3 进行 n 次迭代。​

5.
针对来自所有有害提示的响应的所有修订版本微调预训练的 LLM，还包括有用的提示和响应的组合，以确保微调后的模型仍然有用，此模型即 Supervised Learning Constitutional AI (SL-CAI) 模型。​

阶段二：强化学习阶段，此阶段包括以下步骤：

1.
使用在上一步训练得到的 SL-CAI 模型生成针对有害提示的响应对。​

2.
使用具有一个原则和一对响应的反馈模型，去选择更无害的响应。​

3.
反馈模型的归一化对数概率用于训练偏好模型/奖励模型。​

4.
最后，利用上一步训练的偏好模型作为奖励函数，以 RLHF 方式训练 SL-CAI 模型，得到 Reinforcement Learning Constitutional AI (RL-CAI) 模型。​

另外谷歌的 RLAIF 也采用了类似的方式，即利用 AI 代替人类标注数据。

LLM（十五）：反思RLHF，如何更加高效训练有偏好的LLM​

LLM（十五）：反思RLHF，如何更加高效训练有偏好的LLM