首頁 科技週邊 人工智慧 GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

Oct 14, 2023 pm 08:13 PM
機器學習 大模型

目前,大型語言模型(LLM)在推理任務上展現了驚人的能力,尤其是在提供範例和中間步驟的情況下。然而,prompt 方法通常依賴LLM中的隱含知識,當隱含知識存在錯誤或與任務不一致時,LLM可能會給出錯誤的答案

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

##現在,來自Google、Mila 研究所等研究機構的研究者們共同探索了一種新的方法- 讓LLM學習推理規則,並提出了一種名為假設到理論(Hypotheses-to- Theories,HtT)的新框架。這種新方法不僅改進了多步驟推理,還具有可解釋性和可遷移性等優勢

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

論文網址:https://arxiv.org/abs/2310.07064

根據對數值推理和關係推理問題的實驗結果顯示,HtT方法對現有的提示方法進行了改進,準確率提高了11-27%。同時,所學到的規則也可以遷移到不同的模型或同一問題的不同形式中

#方法簡介

##總的來說,HtT 框架包含兩個階段— 歸納階段和演繹階段,類似於傳統機器學習中的訓練和測試。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

在歸納階段,LLM 首先需要產生並驗證一組訓練範例的規則。本研究採用CoT 來聲明規則並推導答案,評估規則的出現頻率和準確性,收集經常出現且導致正確答案的規則,形成規則庫

有了良好的規則庫,下一步該研究如何應用這些規則來解決問題。為此,在演繹階段,研究在 prompt 中加入規則庫,並要求 LLM 從規則庫中檢索規則來進行演繹,將隱式推理轉換為顯式推理。

然而,研究發現,即使是非常強大的LLM(例如GPT-4),也很難在每一步都檢索到正確的規則。因此,研究開發了XML標記技巧,以增強LLM的上下文檢索能力

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

實驗結果

為了評估HtT,研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明,HtT 改進了少樣本 prompt 方法。作者也進行了廣泛的消融研究,以提供對 HtT 更全面的了解。

他們在數值推理和關係推理問題上評估新方法。在數值推理中,他們觀察到 GPT-4 的準確率提高了 21.0%。在關係推理中,GPT-4 的準確性提高了 13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來自於規則幻覺的減少。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

具體來說,下表1 顯示了在算術的base-16、base-11 和base-9數據集上的結果。在所有 base 系統中,0-shot CoT 在兩個 LLM 中的表現都最差。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

表 2 呈現了在 CLUTRR 上比較不同方法的結果。可以觀察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的表現最差。對於 few-shot 提示方法,CoT 和 LtM 的效能相似。在平均準確率方面,HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在檢索 CLUTRR 規則方面並不差,而且比 GPT4 從 HtT 中獲益更多,這可能是因為 CLUTRR 中的規則比算術中的規則少。

值得一提的是,使用 GPT4 的規則,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的兩倍多,接近 GPT4 上的 CoT 性能。因此,作者認為 HtT 可以作為從強 LLM 到弱 LLM 的一種新的知識蒸餾形式。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

#

表 3 显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5 来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力

以上是GPT-4透過DeepMind的訓練,提高了13.7%的準確率,實現了更好的歸納和演繹能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1319
25
PHP教程
1269
29
C# 教程
1248
24
大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 Jun 05, 2024 pm 07:59 PM

火山引擎總裁譚待企業要做好大模型落地,面臨模型效果、推理成本、落地難度的三大關鍵挑戰:既要有好的基礎大模型做支撐,解決複雜難題,也要有低成本的推理服務讓大模型廣泛應用,還要更多工具、平台和應用程式幫助企業做好場景落地。 ——譚待火山引擎總裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最關鍵的挑戰。譚待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均處理1,200億tokens文字、生成3,000萬張圖片。為助力企業做好大模型場景落地,位元組跳動自主研發的豆包大模型將透過火山

一文帶您了解SHAP:機器學習的模型解釋 一文帶您了解SHAP:機器學習的模型解釋 Jun 01, 2024 am 10:58 AM

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

使用C++實現機器學習演算法:常見挑戰及解決方案 使用C++實現機器學習演算法:常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

工業知識圖譜進階實戰 工業知識圖譜進階實戰 Jun 13, 2024 am 11:59 AM

一、背景簡介首先來介紹雲問科技的發展歷程。雲問科技公...2023年,正是大模型盛行的時期,很多企業認為已經大模型之後圖譜的重要性大大降低了,之前研究的預置的資訊化系統也都不重要了。不過隨著RAG的推廣、資料治理的盛行,我們發現更有效率的資料治理和高品質的資料是提升私有化大模型效果的重要前提,因此越來越多的企業開始重視知識建構的相關內容。這也推動了知識的建構和加工開始向更高層次發展,其中有許多技巧和方法可以挖掘。可見一個新技術的出現,並不是將所有的舊技術打敗,也有可能將新技術和舊技術相互融合後

你所不知道的機器學習五大學派 你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

Flash Attention穩定嗎? Meta、哈佛發現其模型權重偏差呈現數量級波動 Flash Attention穩定嗎? Meta、哈佛發現其模型權重偏差呈現數量級波動 May 30, 2024 pm 01:24 PM

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

可解釋性人工智慧:解釋複雜的AI/ML模型 可解釋性人工智慧:解釋複雜的AI/ML模型 Jun 03, 2024 pm 10:08 PM

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的

See all articles