LLMS中的複雜推理:為什麼較小的模型掙扎?
這篇研究論文“並非所有LLM推理者都是平等的”,探討了複雜的推理任務中大型語言模型(LLM)的局限性,尤其是那些需要多步解決問題的人。儘管LLM在具有挑戰性的數學問題方面表現出色,但面對互連的問題時,它們的性能會大大降低,其中解決一個問題的解決方案將為下一個問題提供信息,這是一個稱為“組成推理”的概念。
這項由MILA,Google DeepMind和Microsoft Research的研究人員進行的研究揭示了較小,更具成本效益的LLM的弱點。這些模型雖然精通更簡單的任務,但仍在解決鏈接問題所需的“第二跳推理”。這不是由於數據洩漏之類的問題;相反,它源於無法維護上下文並在邏輯上連接問題部分。教學調整是一種常見的性能增強技術,為較小的型號提供了不一致的好處,有時會導致過度擬合。
關鍵發現:
- 解決組成問題時,較小的LLMS表現出顯著的“推理差距”。
- 在解決互連問題時,性能會急劇下降。
- 指令調整在較小的模型中會導致不一致的改進。
- 這種推理限制限制了在現實世界應用中較小的LLM的可靠性。
- 即使是專業的數學模型,也都在構圖推理方面努力。
- 需要更有效的培訓方法來增強多步推理能力。
本文使用構圖級數學(GSM)測試來說明這一差距。該測試涉及兩個鏈接的問題,其中第一個(Q1)的答案變成了第二個(Q2)的變量(x)。結果表明,大多數模型在組成任務上的表現要比其在單個問題上的表現所預測的要差得多。諸如GPT-4O之類的較大,更強大的模型表現出了卓越的推理能力,而較小的,具有成本效益的模型,甚至是專門從事數學的模型,但表現出大幅下降。
比較開源和封閉源LLM的圖表突出了此推理差距。較小,成本效益的模型始終顯示出更大的負面推理差距,表明與較大模型相比,在組成任務上的性能較差。例如,GPT-4O顯示出最小的間隙,而其他類似Phi 3-Mini-4K-IT的差距則顯示出顯著的缺點。
進一步的分析表明,推理差距不僅是由於基準洩漏。這些問題源於過度擬合到基準,不相關的環境分散注意力以及在子任務之間未能有效傳輸信息。
研究得出的結論是,提高組成推理需要創新的培訓方法。儘管教學調整和數學專業化等技術提供了一些好處,但它們不足以彌合推理差距。探索替代方法(例如基於代碼的推理)可能是必要的,以增強LLM處理複雜的多步推理任務的能力。該研究強調需要改進的培訓技術,以使較小,更具成本效益的LLM可靠地執行複雜的推理任務。
以上是LLMS中的複雜推理:為什麼較小的模型掙扎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

雙子座是Google AI策略的基礎 雙子座是Google AI代理策略的基石,它利用其先進的多模式功能來處理和生成跨文本,圖像,音頻,視頻和代碼的響應。由DeepM開發

“超級樂於宣布,我們正在購買花粉機器人,以將開源機器人帶到世界上,” Hugging Face在X上說:“自從Remi Cadene從Tesla加入我們以來,我們已成為開放機器人的最廣泛使用的軟件平台。

在AI社區的重大發展中,Agentica和AI共同發布了一個名為DeepCoder-14B的開源AI編碼模型。與OpenAI等封閉源競爭對手提供代碼生成功能
