大型語言模型(LLM)在執行任務時也可能面臨“過度思考”的困境,導致效率低下甚至失敗。近期,來自加州大學伯克利分校、UIUC、ETH Zurich 和CMU 等機構的研究人員對這一現象進行了深入研究,並發表了題為《過度思考的危險:考察代理任務中的推理-行動困境》的論文(論文鏈接: https://www.php.cn/link/d12e9ce9949f610ac6075ea1edbade93 )。
研究人員發現,在實時交互環境中,LLM 常常在“直接行動”和“周密計劃”之間猶豫不決。這種“過度思考”會導致模型花費大量時間構建複雜的行動計劃,卻難以有效執行,最終事倍功半。
為了深入了解這一問題,研究團隊使用現實世界的軟件工程任務作為實驗框架,並選取了包括o1、DeepSeek R1、Qwen2.5等多種LLM進行測試。他們構建了一個受控環境,讓LLM在信息收集、推理和行動之間取得平衡,並持續保持上下文。
研究人員將“過度思考”分為三種模式:分析癱瘓(Analysis Paralysis)、惡意行為(Rogue Actions)和過早放棄(Premature Disengagement)。他們開發了一個基於LLM的評估框架,對4018條模型軌跡進行了量化分析,並構建了一個開源數據集,以促進相關研究。
結果表明,過度思考與問題解決率呈顯著負相關。推理模型的過度思考程度幾乎是非推理模型的三倍,更容易受到此問題的影響。
為緩解過度思考,研究人員提出了原生函數調用和選擇性強化學習兩種方法,並取得了顯著成效。例如,通過選擇性地使用低推理能力的模型,可以大幅降低計算成本,同時保持較高的任務完成率。
研究還發現,模型規模與過度思考之間存在負相關關係,較小模型更容易過度思考。 此外,增加推理token數量可以有效抑製過度思考,而上下文窗口大小則沒有顯著影響。
這項研究為理解和解決LLM的“過度思考”問題提供了寶貴的見解,有助於提升LLM在實際應用中的效率和可靠性。
以上是DeepSeek R1也會大腦過載?過度思考後性能下降,少琢磨讓計算成本直降43%的詳細內容。更多資訊請關注PHP中文網其他相關文章!