GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升-人工智慧-PHP中文網

方法概览

實驗結果

首頁

科技週邊

人工智慧

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 03, 2023 pm 02:17 PM

ai 模型

近期来，大型语言模型在各种自然语言处理任务中取得了显著的突破，特别是在需要进行复杂思维链（CoT）推理的数学问题上

比如在 GSM8K、MATH 这样的高难度数学任务的数据集中，包括 GPT-4 和 PaLM-2 在内的专有模型已取得显著成果。在这方面，开源大模型还有相当的提升空间。为了进一步提高开源大模型处理数学任务的 CoT 推理能力，一种常见的方法是使用注释 / 生成的问题 - 推理数据对（ CoT 数据）对这些模型进行微调，这些数据对会直接教导模型如何在这些任务中执行 CoT 推理。

最近，西安交通大学、微软和北京大学的研究人员在一篇论文中探讨了一种提升思路，即通过逆向学习过程（即从LLM的错误中学习）来进一步提高其推理能力

就像一个开始学习数学的学生一样，他首先会通过学习教科书上的知识点和例题来提升自己的理解。但同时，他也会进行练习来巩固所学的知识。当他在解题时遇到困难或者失败时，他会意识到自己犯了哪些错误，并且学会如何改正这些错误，这样就形成了一个“错题本”。正是通过从错误中学习，他的推理能力得到了进一步的提高

受这个过程的启发，这项工作探讨了 LLM 的推理能力如何从理解和纠正错误中受益。

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

论文地址：https://arxiv.org/pdf/2310.20689.pdf

具体而言，研究人员首先生成了错误-修正数据对（称为修正数据），然后利用修正数据对LLM进行微调。在生成修正数据：需要进行重写的内容时，他们使用了多个LLM（包括LLaMA和GPT系列模型），以收集不准确的推理路径（即最终答案不正确），随后使用GPT-4作为“修正器”，为这些不准确的推理路径生成修正

生成的修正包含三条信息：(1) 原始解法中不正确的步骤；(2) 解释该步骤不正确的原因；(3) 如何修正原始解法以得出正确的最终答案。在过滤掉最终答案不正确的修正后，人工评估结果表明，修正数据在后续的微调阶段表现出了足够的质量。研究者使用 QLoRA 对 CoT 数据和修正数据微调了 LLM，从而执行了「从错误中学习」（LEMA）。

研究表明，目前的LLM可以采用逐步推进的方法来解决问题，但这种多步骤生成过程并不意味着LLM本身具有强大的推理能力。这是因为它们可能只是模仿人类推理的表面行为，而没有真正理解所需的底层逻辑和规则

这种不理解会导致在推理过程中出现错误，因此需要「世界模型」的帮助，因为「世界模型」对现实世界的逻辑和规则具有先验意识。从这个角度来看，本文中 LEMA 框架可以看成是采用了 GPT-4 作为「世界模型」，教导更小的模型遵守这些逻辑和规则，而不仅仅是模仿 step-by-step 的行为。

现在，让我们来了解一下这项研究的具体实施步骤

方法概览

请看下图1（左），显示了LEMA的整体流程，包括生成修正数据：需要进行重写的内容和微调LLM这两个主要阶段。而图1（右）展示了LEMA在GSM8K和MATH数据集上的性能表现

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

生成修正数据：需要进行重写的内容

給定一個問答範例 GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升、一個修正器模型M_c 和一個推理模型M_r，研究者產生了錯誤修正資料對，其中表示問題q_i 的不準確推理路徑，c_i 表示對的修正。

修正不準確的推理路徑##。研究者首先使用推理模型 M_r，為每個問題 q_i 取樣了多個推理路徑，然後只保留那些最終得不出正確答案 a_i 的路徑，如下公式（1）所示。

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

#為錯誤產生修正。對於問題 q_i 和不準確的推理路徑 GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升，研究者使用修正器模型 M_c 來產生修正，然後在修正中檢查正確答案，如下公式（2）所示。

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

這裡的P_c 包含了四個帶有註解的錯誤修正範例，可以指導修正器模型在產生的修正中包含哪一種類型的資訊

具體而言，帶有註解的修正包含以下三類資訊：

錯誤步驟：原始推理路徑中哪一步出錯了。
解釋：該步驟中出現了什麼類型的錯誤；
#正確解決方案：如何修正不準確的推理路徑以更好地解決原始問題。

請看下圖，圖示1簡單展示了產生修正所使用的提示

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

#產生修正的人工評估。在產生更大規模的數據之前，研究者首先手動評估了產生修正的品質。他們以 LLaMA-2-70B 為 M_r、以 GPT-4 為 M_c，並基於 GSM8K 訓練集產生了 50 個錯誤修正資料對。

研究者對修正進行了分類，分為三個品質等級，分別是優秀、良好和糟糕。以下是三個等級的範例

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

評估結果發現， 50 個生成修正中有35 個達到了優秀品質、11 個為良好、4 個為糟糕。根據這項評估結果，研究者推斷使用 GPT-4 產生修正的整體品質足以進行進一步的微調階段。因此，他們產生了更多大規模的修正，並將所有最終得出正確答案的修正用於需要微調的是LLM。

需要微調的是LLM#

在產生修正資料：需要進行重寫的內容之後，研究者微調了 LLM，從而評估這些模型是否可以從錯誤中學習。他們主要在以下兩種微調設定下進行效能比較。

一是在思維鏈（CoT）資料上微調。研究者僅在問題原理（question-rationale）資料上微調模型。儘管每個任務中都有註釋的數據，但他們額外採用了 CoT 數據增強。研究者使用 GPT-4 為訓練集中的每個問題產生了更多推理路徑，並過濾掉最終答案錯誤的路徑。他們利用 CoT 數據增強來建立一個強大的微調基線，該基線僅使用 CoT 數據，並有助於對控制微調的數據大小進行消融研究。

二是在 CoT 資料修正資料上微調。除了 CoT 數據，研究者還將產生的錯誤修正數據用於微調（即 LEMA）。他們同樣進行了控制資料大小的消融實驗，以減少增量對資料大小的影響。

附錄A 中的範例5 和範例6 分別展示了用於微調的CoT 資料和修正資料的輸入- 輸出格式

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

實驗結果

研究人員透過實驗結果證明了LEMA在五個開源LLM和兩個具有挑戰性的數學推理任務上的有效性

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

LEMA 在各種LLM 和任務中都能持續提升效能，與僅在CoT 資料上進行微調相比。例如，使用LLaMA-2-70B 的LEMA 在GSM8K 和MATH 上分別取得了83.5% 和25.0% 的成績，而僅在CoT 數據上進行微調則分別取得了81.4% 和23.6% 的成績

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

此外，LEMA 與專有LLM 相容：具有WizardMath-70B /MetaMath-70B 的LEMA 在GSM8K 上實現了84.2%/85.4% 的pass@1準確率，在MATH 上實現了27.1%/26.9% 的pass@1 準確率，超過了眾多開源模型在這些挑戰性任務上取得的SOTA 性能。

隨後的消融研究表明，在相同的數據量下，LEMA 仍然優於 CoT-alone 微調。這表明，CoT 資料和校正資料的有效性並不相同，因為兩個資料來源的結合比使用單一資料來源能產生更多的改進。這些實驗結果和分析強調了從錯誤中學習在增強 LLM 推理能力方面的潛力。

如需查看更多研究細節，請參閱原始論文

以上是GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7820

Java教學

1647

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素：1. 流動性：優先選擇日均交易量超50億美元的平台。 2. 合規性：查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性：冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力：是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家，日均衍生品交易量超 300 億美元，支持 300 多個交易對與 200 倍槓桿，技術實力強大，擁有龐大的全球用戶基礎，提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為：1. Binance，2. OKX，3. gate.io，4. Coinbase，5. Kraken，6. Huobi，7. Bitfinex，8. KuCoin，9. Bybit，10. Bitstamp，這些平台均採用了多層次的安全措施，包括冷熱錢包分離、多重簽名技術以及24/7的監控系統，確保用戶資金的安全。

穩定幣有哪些？穩定幣如何交易？ Apr 22, 2025 am 10:12 AM

常見的穩定幣有：1. 泰達幣（USDT），由Tether發行，與美元掛鉤，應用廣泛但透明性曾受質疑；2. 美元幣（USDC），由Circle和Coinbase發行，透明度高，受機構青睞；3. 戴幣（DAI），由MakerDAO發行，去中心化，DeFi領域受歡迎；4. 幣安美元（BUSD），由幣安和Paxos合作，交易和支付表現出色；5. 真實美元（TUSD），由TrustTo

目前有多少穩定幣交易所？穩定幣種類有多少？ Apr 22, 2025 am 10:09 AM

截至2025年，穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月，有七个加密货币项目被认为具有显著增长潜力：1. Filecoin（FIL）通过分布式存储网络实现快速发展；2. Aptos（APT）以高性能Layer 1公链吸引DApp开发者；3. Polygon（MATIC）提升以太坊网络性能；4. Chainlink（LINK）作为去中心化预言机网络满足智能合约需求；5. Avalanche（AVAX）以快速交易和