分享
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
输入“/”快速插入内容
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
2024年8月12日修改
机器之心|
阅读原文
转载请联系原作者取得授权
本文作者来自香港大学和 腾讯 。 作者列表:李沁桐,Leyang Cui,赵学亮, 孔令鹏 ,Wei Bi。其中,第一作者李沁桐是香港大学 自然语言处理 实验室的博士生,研究方向涉及 自然语言生成 和文本推理,与博士生赵学亮共同师从 孔令鹏 教授。Leyang Cui 和 Wei Bi 是 腾讯 高级研究员。
前言
大型 语言模型 (LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的 基准 测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异, 准确率 高达 90% 以上。同时,许多开源模型也展现出了不俗的实力, 准确率 超过 80%。
然而在使用中我们经常会发现,当数学问题稍作改变时,LLMs 可能会出现一些低级错误,如下图所示:
图 1:GPT-3.5-Turbo 正确解答了一个数学问题(左),但当在原问题的基础上添加一个限制条件(右)时,Turbo 因为没有正确区分 “离开” 和 “返回” 的方向,而误用运算符出错。
我们不禁要问:大型 语言模型 是否真的掌握了数学知识的精髓?它们是如何在这些测试中取得如此高分的?难道仅仅是因为模仿了大量训练数据中的表面推理模式吗?LLMs 是否真正理解数学概念,仍是一个值得探讨的问题。
为了探究这一问题,本文作者设计了一个评估 基准
GSM-Plus
。这个测试旨在对一个问题进行 8 种不同的细粒度数学变换,系统地评估当前 LLMs 在处理基础数学应用题时的能力。在这一全新的 基准 测试中,论文对 25 个不同的 LLMs 进行了严格评测,包括业界的开源和闭源模型。
实验结果表明,对于大多数 LLMs 来说,GSM-Plus 是一个具有挑战性的 基准 测试。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的 准确率 ,但在 GSM-Plus 上仅能达到 61.19% 的 准确率 。本文工作已经以4,4, 4.5分被ACL2024录用。
•
论文标题:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
•
论文地址:
https://arxiv.org/pdf/2402.19255
•
论文主页:
https://qtli.github.io/GSM-Plus/
背景
数学推理是 人工智能 发展的重要证明。它需要严格的问题理解、策略制定和计算执行能力。在过去几年中,诸多公开数据集被用于评估 人工智能 系统的数学推理能力。早期的数学数据集侧重于基于方程的数学问题。随后,更难的数据集被引入,涵盖了小学、高中和大学水平的数学问题。
随着评测数据难度的不断提高,LLMs 的发展也变得十分迅速。为了提升 LLMs 在数学领域的性能,可以通过在多样化的任务数据上进行训练,使用监督微调(SFT)来快速帮助 LLMs 适应到数学领域。在推理阶段,通过设计巧妙的输入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激发 LLMs 的数学能力。