分享
支付宝+清华FoRAG:用创作的思路解决RAG生成逻辑问题!
输入“/”快速插入内容
支付宝+清华FoRAG:用创作的思路解决RAG生成逻辑问题!
2024年8月27日修改
作者:PaperAgent
原文:
https://mp.weixin.qq.com/s/7uqZ5U10...
RAG通过结合LLMs和检索器,利用搜索引擎增强了长篇问答( Long-form Question Answering )的质量。 尽管存在多种开源方法和商业系统,如Bing Chat,但生成的长形答案中存在两个关键问题:
事实性不足和逻辑清晰度不够。
为了解决这些问题,提出了一种
新颖的大纲增强生成器(outline-enhanced generator)
,以实现多面性答案的清晰逻辑生成,并构建了两个相应的数据集。接着,提出了一
种基于精心设计的事实性优化方法
,该方法采用双细粒度的RLHF(Reinforcement Learning from Human Feedback)框架,包含不同粒度级别的自动评估和奖励建模。
展示了用于网络增强型长篇问答任务(LFQA)的LLM输入(
左上
),现有的生成器(
左下
),大纲增强生成器(
中间
)以及我们双细粒度的事实性优化方法(
右
)。在生成长答案之前,大纲增强生成器首先起草一个组织模式和大纲,以促进生成的清晰逻辑。双细粒度的RLHF通过在两个核心步骤中纳入细粒度设计来优化事实性,即事实性评估和奖励建模,在每个步骤上提出了多个粒度级别的方法。
大纲增强生成器
:
1.
大纲增强生成器(Outline-Enhanced Generator)
:提出了一种新的两阶段生成技术,首先生成一个组织模式和大纲,以提高生成答案的逻辑清晰度。在第一阶段,生成器使用大纲模板,根据用户查询和上下文草拟答案大纲。第二阶段基于生成的大纲扩展每个观点,构建最终答案。
2.
两阶段生成过程
:
◦
大纲阶段(Outline Stage)
:生成器首先根据问题和上下文,选择最合适的组织模式(如因果关系、比较对比等),然后输出一个包含关键点的大纲。
◦
扩展阶段(Expansion Stage)
:根据前一阶段生成的大纲,LLM扩展每个关键点,形成完整的答案。
新颖的事实性优化方法:
1.
直接应用RLHF的困难
:直接将传统的基于人类反馈的强化学习(RLHF)应用于事实性优化所面临的两个主要困难:人工标注事实性标签的成本高昂,以及整体性奖励(holistic reward)提供的稀疏训练信号,这在长答案中尤为突出。
2.
双细粒度RLHF框架
:为了克服这些困难,提出了一个双细粒度的RLHF框架。该框架通过在事实性评估和奖励建模两个核心步骤中引入细粒度设计,提供了更密集的奖励信号。
3.
细粒度评估
:三种评估粒度:
◦
整体性
:将整个答案作为一个单元进行评估。
◦
句子级别
:将答案分割成句子,并分别评估每个句子。
◦
子声明级别
:进一步将每个句子分解为多个子声明,并分别评估每个子声明。
4.
细粒度奖励建模
:提出了两种奖励建模粒度:
◦
序列级别
:为每个序列学习单一的奖励,反映相应序列的事实性。
◦
标记级别
:为序列中的每个标记学习奖励,通过聚合所有标记级别的奖励来计算序列的奖励。
5.
PPO优化
:采用近端策略优化(PPO)方法来优化生成模型,通过最大化训练好的奖励模型提供的奖励。
通过广泛的实验,验证了所提出的事实性优化RAG(FoRAG)方法在英文和中文基准测试中的优越性。特别是,当将该方法应用于Llama2-7B-chat时,得到的模型FoRAG-L-7B在
连贯性、有用性和事实性这三个常用指标上超过了WebGPT-175B
,而FoRAG-L-7B的参数数量仅为WebGPT-175B的1/24。
现有网络增强型RAGs与我们的FoRAG的性能比较
有无提纲增强(Out. Enh.)和事实性优化(Fac. Opt.)的FoRAG变体的比较
在我们的FoRAG-L 7B上使用各种事实性优化技术的性能比较。"-"表示没有进行额外的事实性优化,即标准的事实性优化模型(SFT模型)