首頁 科技週邊 人工智慧 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

Jul 17, 2024 am 10:14 AM
工程 因果推理 公理訓練

把因果鏈展示給 LLM,它就能學會公理。

AI 已經在幫助數學家和科學家做研究了,比如著名數學家陶哲軒就曾多次分享自己借助 GPT 等 AI 工具研究探索的經歷。 AI 要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。

本文要介紹的這項研究發現:在小圖譜的因果傳遞性公理演示上訓練的 Transformer 模型可以泛化用於大圖譜的傳遞性公理。

也就是說,如果讓 Transformer 學會執行簡單的因果推理,就可能將其用於更為複雜的因果推理。團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示足夠就能用於學習任意公理。

引言

引言(causal reasoning)可以定義成一組推理流程並且這組推理流程要符合專門針對因果性的預定義或公理規則。舉個例子,d-separation(有向分離)和 do-calculus 規則可被視為公理,而 collider set 或 backdoor set 的規範則可被看作是由公理推導出的規則。

通常來說,因果推理所使用的資料對應於一個系統中的變數。透過正規化、模型架構或特定的變數選擇,可以歸納偏移的形式將公理或規則整合到機器學習模型中。

根據可用資料種類的差異(觀察資料、介入資料、反事實資料),Judea Pearl 提出的「因果階梯」定義了因果推理的可能類型。

由於公理是因果性的基石,因此我們不禁會想是否可以直接使用機器學習模型來學習公理。也就是說,如果學習公理的方式不是學習透過某個資料產生流程所得到的數據,而是直接學習公理的符號演示(並由此學習因果推理),哪又會如何呢?

相較於使用特定的數據分佈構建的針對特定任務的因果模型,這樣的模型有一個優勢:其可在多種不同的下游場景中實現因果推理。隨著語言模型具備了學習以自然語言表達的符號資料的能力,這個問題也變得非常重要了。

事實上,近期已有一些研究透過創建以自然語言編碼因果推理問題的基準,評估了大型語言模型(LLM)是否能夠執行因果推理。

微軟、MIT 和印度理工學院海得拉巴分校(IIT Hyderabad)的研究團隊也朝這個方向邁出了重要一步:提出了一種透過公理訓練(axiomatic training)學習因果推理的方法

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

  • 論文標題:Teaching Transformers Causal Reasoning through Axiomatic Training
  • 論文地址:https://arxiv.org/pdf/2407.07612
    論文地址:https://arxiv.org/pdf/2407.07612

他們假設,因果公理可表示成以下符號元組〈premise, hypothesis, result”。其中 hypothesis 是指假設,即因果陳述;premise 是前提,是指用於確定該陳述是否為「真」的任意相關資訊;result 自然就是結果了。結果可以是簡單的“是”或“否”。
舉個例子,來自論文《Can large language models infer causation from correlation?》的 collider 公理可以表示成:
,結論就為「是」。
基於這個模板,可透過修改變數名稱、變數數量和變數順序等來產生大量合成元組。
公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4
為了用 Transformer 學習因果公理,實現公理訓練,該團隊採用了以下方法構建資料集、損失函數和位置嵌入。

公理訓練:資料集、損失函數和位置編制

訓練資料
訓練資料
Yes 或No)。要建立訓練資料集,團隊的做法是在特定的變數設定X、Y、Z、A 下列舉所有可能的元組{(P, H, L)}_N,其中P 是前提,H 是假設,L 是標籤(Yes 或No)。

給定一個基於某個因果圖譜的前提 P,如果可透過使用特定的公理(一次或多次)推導出假設 P,那麼標籤 L 就為 Yes;否則為 No。

舉個例子,假設一個系統的底層真實因果圖譜具有鍊式的拓撲結構:X_1 → X_2 → X_3 →・・・→ X_n。那麼,可能的前提是 X_1 → X_2 ∧ X_2 → X_3,那麼假設 X_1 → X_3 有標籤 Yes,而另一個假設 X_3 → X_1 有標籤 No。上述公理可被歸納式地多次用於產生更複雜的訓練元組。

對於訓練設置,使用傳遞性公理產生的 N 個公理實例建立一個合成資料集 D。 D 中的每個實例都建構成了 (P_i, H_ij, L_ij) 的形式,
,其中 n 是每第 i 個前提中的節點數。 P 是前提,即某種因果結構的自然語言表達(如 X 導致 Y,Y 導致 Z);之後是問題 H(如 X 導致 Y 嗎?);L 為標籤(Yes 或 No)。此形式能有效涵蓋給定因果圖譜中每條獨特鏈的所有成對節點。
公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4
損失函數

給定一個資料集,損失函數的定義基於每個元組的基本真值標籤,表示為:
分析表明,相比於下一同預測,使用該損失能得到很有希望的結果。
公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4
位置編碼

除了訓練和損失函數,位置編碼的選擇也是另一個重要因素。位置編碼能提供 token 在序列中絕對和相對位置的關鍵資訊。

著名論文《Attention is all you need》中提出了一種使用週期函數(正弦或餘弦函數)來初始化這些編碼的絕對位置編碼策略。

絕對位置編碼能為任何序列長度的所有位置提供確定的值。但是,有研究顯示絕對位置編碼難以應對 Transformer 的長度泛化任務。在可學習的 APE 變體中,每個位置嵌入都是隨機初始化的,並使用該模型完成了訓練。此方法難以應對比訓練時的序列更長的序列,因為新的位置嵌入仍未被訓練和初始化。

有趣的是,近期有發現表明移除自回歸模型中的位置嵌入可以提升模型的長度泛化能力,而自回歸解碼期間的注意力機制足以編碼位置資訊。該團隊使用了不同的位置編碼來理解其對因果任務中的泛化的影響,包括可學習位置編碼(LPE)、正弦位置編碼(SPE)、無位置編碼(NoPE)。

為了提升模型的泛化能力,該團隊也採用了資料擾動,其中包括長度、節點名稱、鏈順序和分支情況的擾動。

實驗

下面問題又來了:如果使用這些數據訓練一個模型,那麼該模型能否學會將該公理應用於新場景?

為了解答這個問題,該團隊使用這個因果無關型公理的符號演示從頭開始訓練了一個 Transformer 模型。

為了評估其泛化性能,他們在簡單的大小為3-6 個節點的因果無關公理鏈上進行了訓練,然後測試了泛化性能的多個不同方面,包括長度泛化性能(大小7-15 的鏈)、名稱泛化性能(更長的變數名)、順序泛化性能(帶有反向的邊或混洗節點的鏈)、結構泛化性能(帶有分支的圖譜)。圖 1 給出了評估 Transformer 的結構泛化的方式。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

具體來說,他們基於 GPT-2 架構訓練了一個基於解碼器的有 6700 萬參數的模型。此模型有 12 個注意力層、8 個注意力頭和 512 個嵌入維度。他們在每個訓練資料集上從頭開始訓練了該模型。為了理解位置嵌入的影響,他們還研究了三種位置嵌入設定:正弦位置編碼(SPE)、可學習位置編碼(LPE)和無位置編碼(NoPE)。

結果如表 1、圖 3 及圖 4 所示。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

表 1 給出了在訓練時未曾見過的更大因果鏈上評估時不同模型的準確度。可以看到,新模型 TS2 (NoPE) 的表現能與萬億參數規模的 GPT-4 相媲美。

圖 3 是在有更長節點名稱(長於訓練集的)的因果序列上的泛化能力評估結果以及不同位置嵌入的影響。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

圖 4 評估的是在更長的未見過的因果序列上的泛化能力。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

他們發現,在簡單鏈上訓練的模型可以泛化到在更大的鏈上多次應用公理,但卻無法泛化到順序或結構泛化等更複雜的場景。但是,如果在簡單鏈以及具有隨機逆向邊的鏈組成的混合資料集上訓練模型,則模型可以很好地泛化到各種評估場景。

透過擴展在 NLP 任務上的長度泛化研究結果,他們發現了位置嵌入在確保在長度和其它方面實現因果泛化的重要性。他們表現最佳的模型沒有位置編碼,但他們也發現正弦編碼在某些情況下也很好用。

這種公理訓練方法還能泛化用於一個更困難的問題,如圖 5 所示。即以包含統計獨立性陳述的前提為基礎,任務目標是根據因果關係分辨相關性。解決該任務需要多個公理的知識,包括 d-separation 和馬可夫性質。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

該團隊使用與上面一樣的方法生成了合成訓練數據,然後訓練了一個模型,結果發現在包含3-4 個變量的任務演示上訓練得到的Transformer 能學會解決包含5 個變量的圖譜任務。且在該任務上,該模型的準確度高於 GPT-4 和 Gemini Pro 等更大型的 LLM。

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4

該團隊表示:「我們的研究提供了一種透過公理的符號演示教模型學習因果推理的新範式,我們稱之為公理訓練(axiomatic training)。」該方法的數據生成和訓練流程是普適的:只要一個公理能被表示成符號元組的格式,就可使用此方法學習它。

以上是公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1431
52
Laravel 教程
1334
25
PHP教程
1280
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles