ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

2024年8月12日修改

机器之心｜阅读原文

转载请联系原作者取得授权

本文作者来自香港大学和 腾讯 。 作者列表：李沁桐，Leyang Cui，赵学亮， 孔令鹏 ，Wei Bi。其中，第一作者李沁桐是香港大学 自然语言处理 实验室的博士生，研究方向涉及 自然语言生成 和文本推理，与博士生赵学亮共同师从 孔令鹏 教授。Leyang Cui 和 Wei Bi 是 腾讯 高级研究员。​

前言

大型 语言模型 （LLMs）在解决问题方面的非凡能力日益显现。最近，一个值得关注的现象是，这些模型在多项数学推理的 基准 测试中获得了惊人的成绩。以 GPT-4 为例，在高难度小学应用题测试集 GSM8K [1] 中表现优异， 准确率 高达 90% 以上。同时，许多开源模型也展现出了不俗的实力， 准确率 超过 80%。​

然而在使用中我们经常会发现，当数学问题稍作改变时，LLMs 可能会出现一些低级错误，如下图所示：​

common.docs_name - LarkCCM_Docs_Menu_Image

图 1：GPT-3.5-Turbo 正确解答了一个数学问题（左），但当在原问题的基础上添加一个限制条件（右）时，Turbo 因为没有正确区分 “离开” 和 “返回” 的方向，而误用运算符出错。​

我们不禁要问：大型 语言模型 是否真的掌握了数学知识的精髓？它们是如何在这些测试中取得如此高分的？难道仅仅是因为模仿了大量训练数据中的表面推理模式吗？LLMs 是否真正理解数学概念，仍是一个值得探讨的问题。​

为了探究这一问题，本文作者设计了一个评估 基准 GSM-Plus 。这个测试旨在对一个问题进行 8 种不同的细粒度数学变换，系统地评估当前 LLMs 在处理基础数学应用题时的能力。在这一全新的 基准 测试中，论文对 25 个不同的 LLMs 进行了严格评测，包括业界的开源和闭源模型。​

实验结果表明，对于大多数 LLMs 来说，GSM-Plus 是一个具有挑战性的 基准 测试。即便是在 GSM8K 上，GPT-3.5-Turbo 已能取得 73.62% 的 准确率 ，但在 GSM-Plus 上仅能达到 61.19% 的 准确率 。本文工作已经以4，4， 4.5分被ACL2024录用。​

•
论文标题：GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers​

•

论文地址：https://arxiv.org/pdf/2402.19255

•

论文主页：https://qtli.github.io/GSM-Plus/

背景

数学推理是 人工智能 发展的重要证明。它需要严格的问题理解、策略制定和计算执行能力。在过去几年中，诸多公开数据集被用于评估 人工智能 系统的数学推理能力。早期的数学数据集侧重于基于方程的数学问题。随后，更难的数据集被引入，涵盖了小学、高中和大学水平的数学问题。​

随着评测数据难度的不断提高，LLMs 的发展也变得十分迅速。为了提升 LLMs 在数学领域的性能，可以通过在多样化的任务数据上进行训练，使用监督微调（SFT）来快速帮助 LLMs 适应到数学领域。在推理阶段，通过设计巧妙的输入提示（例如，Chain-of-Thought 和 Program-of-Thought）也可以有效激发 LLMs 的数学能力。​

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格​

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格