首页 > 科技周边 > 人工智能 > LLMS中的复杂推理:为什么较小的模型挣扎?

LLMS中的复杂推理:为什么较小的模型挣扎?

尊渡假赌尊渡假赌尊渡假赌
发布: 2025-03-20 10:51:12
原创
1002 人浏览过

这篇研究论文“并非所有LLM推理者都是平等的”,探讨了复杂的推理任务中大型语言模型(LLM)的局限性,尤其是那些需要多步解决问题的人。尽管LLM在具有挑战性的数学问题方面表现出色,但面对互连的问题时,它们的性能会大大降低,其中解决一个问题的解决方案将为下一个问题提供信息,这是一个称为“组成推理”的概念。

这项由MILA,Google DeepMind和Microsoft Research的研究人员进行的研究揭示了较小,更具成本效益的LLM的弱点。这些模型虽然精通更简单的任务,但仍在解决链接问题所需的“第二跳推理”。这不是由于数据泄漏之类的问题;相反,它源于无法维护上下文并在逻辑上连接问题部分。教学调整是一种常见的性能增强技术,为较小的型号提供了不一致的好处,有时会导致过度拟合。

LLMS中的复杂推理:为什么较小的模型挣扎?

关键发现:

  • 解决组成问题时,较小的LLMS表现出显着的“推理差距”。
  • 在解决互连问题时,性能会急剧下降。
  • 指令调整在较小的模型中会导致不一致的改进。
  • 这种推理限制限制了在现实世界应用中较小的LLM的可靠性。
  • 即使是专业的数学模型,也都在构图推理方面努力。
  • 需要更有效的培训方法来增强多步推理能力。

本文使用构图级数学(GSM)测试来说明这一差距。该测试涉及两个链接的问题,其中第一个(Q1)的答案变成了第二个(Q2)的变量(x)。结果表明,大多数模型在组成任务上的表现要比其在单个问题上的表现所预测的要差得多。诸如GPT-4O之类的较大,更强大的模型表现出了卓越的推理能力,而较小的,具有成本效益的模型,甚至是专门从事数学的模型,但表现出大幅下降。

LLMS中的复杂推理:为什么较小的模型挣扎?

比较开源和封闭源LLM的图表突出了此推理差距。较小,成本效益的模型始终显示出更大的负面推理差距,表明与较大模型相比,在组成任务上的性能较差。例如,GPT-4O显示出最小的间隙,而其他类似Phi 3-Mini-4K-IT的差距则显示出显着的缺点。

LLMS中的复杂推理:为什么较小的模型挣扎?

进一步的分析表明,推理差距不仅是由于基准泄漏。这些问题源于过度拟合到基准,不相关的环境分散注意力以及在子任务之间未能有效传输信息。

LLMS中的复杂推理:为什么较小的模型挣扎?

LLMS中的复杂推理:为什么较小的模型挣扎?

LLMS中的复杂推理:为什么较小的模型挣扎?

研究得出的结论是,提高组成推理需要创新的培训方法。尽管教学调整和数学专业化等技术提供了一些好处,但它们不足以弥合推理差距。探索替代方法(例如基于代码的推理)可能是必要的,以增强LLM处理复杂的多步推理任务的能力。该研究强调需要改进的培训技术,以使较小,更具成本效益的LLM可靠地执行复杂的推理任务。

以上是LLMS中的复杂推理:为什么较小的模型挣扎?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板