该方法的核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。 在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。 然后使用偏好模型作为奖励信号对 RL 进行训练,即 RL from AI Feedback(RLAIF)。
RLAIF 整过过程可分为 监督训练阶段 和 强化学习阶 段两部分。
阶段一:监督训练阶段, 此阶段包括以下步骤:
1.
获得 Helpful 模型对 red teaming提示的响应。 因此,在这些情况下,模型的响应可能是有害的。
2.
在提供了一套应该遵守的原则,让 Helpful 模型据此评论自己的响应。
3.
要求 Helpful 模型根据其提供的评论修改其先前的响应。
4.
重复步骤 2 和 3 进行 n 次迭代。
5.
针对来自所有有害提示的响应的所有修订版本微调预训练的 LLM,还包括有用的提示和响应的组合,以确保微调后的模型仍然有用,此模型即 Supervised Learning Constitutional AI (SL-CAI) 模型。