模型幻觉部分是LLM的“ 明知不可为而为之 ”。为什么这么确认呢?因为不少学者发现,在LLM生成后,让模型 自行 对结果进行真实性校验,往往能在一定程度上缓解模型的幻觉问题,即此时是模型在明知信息不真实的情况下仍然进行输出导致的幻觉。实际上这也是RL阶段主要在解决的问题:以honest为导向(之一)的Reward Model,在发现LLM输出幻觉结果时进行无情“痛击”,从 根本上 矫正模型的 输出行为与风格 。顺带一提,这也是LLAMA2中提到的RM要与chat model保持同源的原因:只有这样RM才能与chat model的认知一致,让chat model知道是因为“说谎”(或因为RM认为自己“说谎”)才挨的打。