一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

2024年8月27日修改

作者：机器之心

编辑：Panda

为了对齐 LLM，各路研究者妙招连连。

LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：​

让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加道德约束）」后，ChatGPT 给出了商店偷盗指南​

这时候，对齐（alignment）就至关重要了，其作用就是让 LLM 与人类的价值观保持一致。​

在对齐 LLM 方面，基于人类反馈的强化学习（RLHF）是一种突破性的技术。该方法催生了 GPT-4、Claude 和 Gemini 等强大模型。RLHF 之后，人们也探索了多种多样的对齐 LLM 的方法。但是，此前还没有人全面总结对齐 LLM 与人类偏好的方法。​

Salesforce 决定填补这一空白，于近日发布了一份 37 页的综述报告，其中按类别总结了现有的研究文献，并详细分析了各篇论文。​

•
论文标题：A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More​

•

这篇论文分为四大主题：奖励模型、反馈、强化学习（RL）、优化。每个主题又包含进一步的子主题，如图 1 所示。​

奖励模型的子主题包括：1. 显式奖励模型与隐式奖励模型；2. 逐点奖励模型与偏好模型；3. 响应层面的奖励与 token 层面的奖励；4. 负偏好优化。​

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……​