分享
大模型全栈总览【合集·下】
输入“/”快速插入内容
📺
大模型全栈总览【合集·下】
2024年8月12日修改
👀快看👀
👤
作者:
大模型解码室
50%
🎬
原文链接:
大模型全栈总览
50%
❤️
推荐指数:⭐️⭐️⭐️⭐️⭐️
50%
✅
观看时间:3h48min
50%
⚡️摘要⚡️
该系列由大模型解码室作者制作整理,内容包含大模型强化学习的视频课程合集,涵盖了从基础到进阶的各个方面,包括 RLHF、DPO、IPO、KTO 等概念和实战演练,以及分布式训练中的数据并行等技术。
🤖分集🤖
🔆
08大模型全栈-强化学习01-RLHF前言传统强化学习
介绍强化学习的关键实体、交互过程,通过例子强调奖励设计,并且对奖励概念及在 NLP 领域的应用进行了讨论。
50%
50%
🔆
09大模型全栈-强化学习02-RLHF前言LLM强化学习
阐述大语言模型中强化学习应用,包括概念、输出、收益、状态、策略区分及举例。
50%
50%
🔆
10大模型全栈-强化学习03-RLHF原理以及流程介绍
RLHF 模型由四个模型构成,训练流程分为三个阶段。各模型作用明确,有多种损失函数。但也存在算力消耗大、容易崩溃等挑战。
50%
50%
🔆
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
微软开源的 DeepSpeed Chat 项目,解决大型模型强化学习问题。提出混合引擎等技术,降低内存消耗,提供易用训练代码,实验证明成果并指出不稳定性及建议。
50%
50%
🔆
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
介绍轩辕 6B 大模型全栈学习实践,涵盖强化学习,包括偏好数据构建、奖励模型训练及强化学习阶段细节等。
50%
50%