透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算-人工智慧-PHP中文網

新提出的方法

實驗

首頁

科技週邊

人工智慧

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 25, 2023 pm 01:53 PM

數據模型

數學推理是現代大型語言模型（LLM）的重要能力。儘管這個領域近來有了一些進展，但是閉源和開源的LLM之間仍然存在明顯的差距。閉源模型如GPT-4、PaLM-2和Claude 2在GSM8K和MATH等常見數學推理基準上佔據主導地位，而開源模型如Llama、Falcon和OPT在所有基準上都明顯落後

#為了解決這個問題，研究界正朝著兩個方向努力

（1）Galactica 和MINERVA 等持續型預訓練方法，可以在超過千億個數學相關網路資料的基礎上對LLM 進行持續訓練。這種方法可以提高模型的一般科學推理能力，但計算成本較高

拒絕採樣微調（RFT）和WizardMath等特定資料集微調方法，即使用特定資料集的監督數據對LLM進行微調。雖然這些方法可以提高在特定領域內的效能，但無法泛化到微調資料之外的更廣泛數學推理任務。例如，RFT和WizardMath可以將在GSM8K（其中之一是微調資料集）上的準確性提高30％以上，但會損害在MMLU-Math和AQuA等領域之外資料集上的準確性，使其降低多達10％

近日，來自滑鐵盧大學和俄亥俄州立大學等機構的研究團隊提出了一種輕量級卻又可泛化的數學指令微調方法，可用於增強LLM 的一般性（即不限於微調任務）數學推理能力。

重寫後的內容：在過去，關注的方法主要是思維鏈（CoT）方法，即透過逐步自然語言描述來解決數學問題。這種方法非常通用，可以應用於大多數數學學科，但在計算精度和複雜的數學或演算法推理過程（例如求解二次方程式根和計算矩陣特徵值）方面存在一些困難

##相較之下，像是思考程式（PoT）和PAL 這樣的程式碼格式prompt 設計方法則是利用外部工具（即Python 解譯器）來大幅簡化數學求解過程。這種方法是將計算過程卸載到外部 Python 解釋器來求解複雜的數學和演算法推理（例如使用 sympy 求解二次方程式或使用 numpy 計算矩陣特徵值）。但是，PoT 難以應付更抽象的推理場景，例如常識推理、形式邏輯和抽象代數，尤其是沒有內建的 API 時。

為了兼顧CoT和PoT兩種方法的優點，團隊引入了一個新的數學混合指令微調資料集MathInstruct，該資料集具有兩個主要特點：(1)廣泛涵蓋不同的數學領域和複雜程度，(2) 將CoT和PoT原理融合在一起

#MathInstruct 基於七個現有的數學原理資料集和六個新整理出的數據集。他們使用 MathInstruct 微調了不同大小（從 7B 到 70B）的 Llama 模型。他們將所得到的模型稱為 MAmmoTH 模型，結果發現 MAmmoTH 的能力是前所未有的，就像是個數學通才。

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

為了評估MAmmoTH，研究團隊使用了一系列評估資料集，其中包括領域內的測試集（GSM8K 、MATH、AQuA-RAT、NumGLUE）和領域外的測試集（SVAMP、SAT、MMLU-Math、Mathematics、SimulEq）

研究結果顯示，MAmmoTH 模型正在泛化到領域外資料集方面表現較好，同時也顯著提升了開源LLM 在數學推理方面的能力

值得注意的是，在常用的競賽級MATH資料集上，MAmmoTH的7B版本能夠以3.5倍的優勢（35.2% vs 10.7%）擊敗WizardMath（這是MATH上之前最佳的開源模型），而經過微調的34B MAmmoTH-Coder甚至可以超過使用CoT的GPT-4

這項研究的貢獻可以總結為兩個方面：（1）在資料工程方面，他們提出了一個高品質的數學指令微調資料集，其中包含了多種不同的數學問題和混合原理。（2）在建模方面，他們訓練和評估了大小從7B到70B的50多個不同的新模型和基準模型，以探究不同資料來源和輸入-輸出格式的影響

研究結果表明，MAmmoTH和MAmmoTH-Coder等新模型在準確度方面明顯超過了先前的開源模型

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

論文：https://arxiv.org/pdf/2309.05653.pdf
代碼：https:/ /github.com/TIGER-AI-Lab/MAmmoTH
#資料集與模型：https://huggingface.co/datasets/TIGER-Lab/MathInstruct

該團隊已經發布了他們整理得到的資料集，並開源了新方法的程式碼，同時在Hugging Face上發布了訓練好的不同大小的模型

新提出的方法

#重新整理一個多樣化的混合指令微調資料集

該團隊的目標是編制一份列表，其中包含高品質且多樣化的數學指令微調資料集，其應具有兩個主要特徵：(1) 廣泛涵蓋不同的數學領域和複雜程度，(2) 將CoT 和PoT 原理組合在一起。

對於第一個特徵，研究人員首先選擇了一些廣泛使用的高品質資料集，這些資料集涉及不同的數學領域和複雜程度，例如GSM8K、MATH、AQuA 、Camel和TheoremQA。然後他們注意到現有的資料集中缺乏大學程度的數學知識，例如抽象代數和形式邏輯。為了解決這個問題，他們利用網路上找到的少量種子範例，使用GPT-4合成了TheoremQA中問題的CoT原理，並透過自我指導的方式創建了「問題-CoT」配對

對於第二個特徵，將CoT 和PoT 原理組合到一起可以提升資料集的多功能性，使其訓練的模型有能力解決不同類型的數學問題。但是，大多數現有資料集提供的程序原理有限，導致 CoT 和 PoT 原理之間不平衡。為此，團隊又用到了 GPT-4，來為所選資料集補充 PoT 原理，包括 MATH、AQuA、 GSM8K 和 TheoremQA。然後再對這些 GPT-4 合成的程序進行過濾，做法是將它們的執行結果與人類標註的基本真值進行比較，這能確保所添加的都是高品質的原理。

遵循這些準則，他們建立了一個新的資料集 MathInstruct，詳見下表 1。

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

其中包含26 萬對(指令,回應)，涵蓋廣泛的核心數學領域（算術、代數、機率學、微積分和幾何等），包含混合的CoT 和PoT 原理，並有不同的語言和難度。

重新設定訓練

MathInstruct 的所有子集都被統一變成了類似Alpaca 的指令資料集的結構。這種標準化操作可以確保微調得到的模型能夠一致地處理數據，無論原始數據集的格式如何

在基礎模型方面，該團隊選擇了Llama-2和Code Llama

透過在MathInstruct 上進行調整，他們得到了不同尺寸的模型，包括7B、13B、34B和70B

實驗

評估資料集

為了評估模型的數學推理能力，團隊選擇了一些評估資料集，見下表2，其中包含許多不同領域內和領域外樣本，涉及多個不同數學領域。

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

評估資料集包含不同難度等級，包括小學、中學和大學程度。有些資料集也包含形式邏輯和常識推理

所選的評估資料集既有開放式問題，也有多項選擇題。

對於開放式問題（如 GSM8K 和 MATH），研究者採用了 PoT 解碼，因為大多數這類問題可以透過程式求解。、

對於多項選擇題（如 AQuA 和 MMLU），研究者採用了 CoT 解碼，因為這個資料集中的大部分問題都可以透過 CoT 更好地處理。

CoT 解碼不需要任何觸發詞，而 PoT 解碼需要一個觸發語：「Let’s write a program to solve the problem」。

主要結果

#下表 3 和表 4 分別報告了在領域內外資料上的結果。

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

在整體而言，在不同的模型大小上，MAmmoTH 和 MAmmoTH-Coder 都優於之前最佳的模型。新模型在領域外資料集上取得的效能成長多於在領域內資料集上所獲成長。這些結果顯示新模型確實有成為數學通才的潛力。 MAmmoTH-Coder-34B 和 MAmmoTH-70B 在某些資料集上的表現甚至超過了閉源 LLM。

研究人員也比較了使用不同的基礎模型的情況。具體而言，他們進行了實驗，比較了Llama-2和Code-Llama這兩種基礎模型。從上述兩個表格可以看出，Code-Llama整體優於Llama-2，尤其是在領域外資料集。 MAmmoTH和MAmmoTH-Coder之間的差距甚至可達到5%

#消融研究在資料來源上的探索

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

##他們透過進行研究來探索性能增益的來源。為了更能理解MAmmoTH相對於現有的基準模型的優勢來源，研究者進行了一系列對照實驗，結果如圖2所示

### ###總結起來，MAmmoTH 的顯著效能優勢可以歸功於：1) 涵蓋不同的數學領域和複雜程度的多樣化資料來源，2) CoT 和PoT 指令微調的混合策略。 ############他們也研究了主要子集的影響。對於用於訓練 MAmmoTH 的 MathInstruct 的多樣化來源，理解各個來源對模型整體表現的貢獻程度也很重要。他們關注的重點是四個主要子集：GSM8K、MATH、 Camel 和 AQuA。他們進行了一項實驗：將每個資料集逐漸加入訓練中，並將效能與在整個 MathInstruct 上微調的模型進行比較。 ###########################根據表5的結果可以看出，如果訓練資料集的多樣性不足（例如只有GSM8K時），模型的泛化能力非常差：模型只能適應資料分佈內的情況，難以解決GSM問題之外的問題############多樣化資料來源對MAmmoTH的重要影響在這些結果中得到了凸顯，這也是使MAmmoTH成為數學通才的核心關鍵。這些結果也提供了寶貴的見解，對於我們未來的數據整理和收集工作提供了指導，例如我們應該始終收集多樣化的數據，避免只收集特定類型的數據######

以上是透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7783

Java教學

1644

CakePHP 教程

1400

Laravel 教程

1297

PHP教程

1234

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles

透過MAmmoT，讓LLM成為數學通才：從形式邏輯進階到四則運算

新提出的方法

實驗

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題