图7:在不同提示设置下,模型回答数学问题的示例 结语 本文介绍了一个对抗性小学数学应用题评测集GSM -Plus,旨在系统分析LLMs 在解决数学应用题中的鲁棒性。实验分析发现,大多数 LLMs 在面临扰动时,性能相较于它们在标准基准上的表现显着下降,远远达不到人类的表现水平。研究者期望本文的工作能够促进更多未来研究,包括但不限于:(1)对 LLMs 的数学技能进行系统评估;(2)构建能够灵活进行数学推理的模型。 参考链接[1] Cobbe, Karl, et al. "Training verifiers to solve math word problems." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode. com/sota/arithmetic-reasoning-on-gsm8k[2] George Polya. 2004. How to solve it: A new aspect of mathematical method, volume 85. Princeton university press.