ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格