从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

2024年8月12日修改

机器之心｜阅读原文

转载请联系原作者取得授权

在 人工智能 领域的发展过程中，对大 语言模型 （LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的 强化学习 方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。​

尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。DPO 通过数学推理得到奖励函数与最优策略之间的直接 映射 ，消除了奖励模型的训练过程，直接在偏好数据上优化策略模型，实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度，还增强了算法的稳健性，迅速成为业界的新宠。​

然而，DPO 主要关注在逆 KL 散度约束下的策略优化。由于逆 KL 散度的 mode-seeking 特性，DPO 在提升对齐性能方面表现出色，但是这一特性也倾向于在生成过程中减少多样性，可能限制模型的能力。另一方面，尽管 DPO 从句子级的角度控制 KL 散度，模型的生成过程本质上是逐个 token 进行的。从句子级控制 KL 散度直观上表明 DPO 在细粒度控制上存在限制，对 KL 散度的调节能力较弱，可能是 DPO 训练过程中 LLM 的生成多样性迅速下降的关键因素之一。​

为此，来自中科院和伦敦大学学院的汪军与张海峰团队提出了一种从 token-level 角度建模的大模型对齐算法：TDPO。​

common.docs_name - LarkCCM_Docs_Menu_Image

•
论文标题：Token-level Direct Preference Optimization​

•

论文地址：https://arxiv.org/abs/2404.11999

•

代码地址：https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

为了应对模型生成多样性显著下降的问题，TDPO 从 token-level 的角度重新定义了整个对齐流程的 目标函数 ，并通过将 Bradley-Terry 模型转换为优势函数的形式，使得整个对齐流程能最终从 Token-level 层面进行分析和优化。相比于 DPO 而言，TDPO 的主要贡献如下：​

•
Token-level 的建模方式：TDPO 从 Token-level 的角度对问题进行了建模，对 RLHF 进行了更精细的分析；​

•
细粒度 KL 散度约束：在每个 token 处从理论上引入了前向 KL 散度约束，使方法能够更好地约束 模型优化 ；​

•
性能优势明显：相比于 DPO 而言，TDPO 能够实现更好的对齐性能和生成多样性的帕累托前沿。​

DPO 与 TDPO 的主要区别如下图所示：

图 1：DPO 的对齐优化方式。DPO 从 sentence-level 的角度进行建模​

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」​

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」