有理論基礎，我們就可以進行深度最佳化了。-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

有理論基礎，我們就可以進行深度最佳化了。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 20, 2023 pm 03:05 PM

理論 transformer

為什麼 transformer 效能這麼好？它為眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來？在人工智慧領域裡，transformer 已成為深度學習中的主導模型，但人們對於它卓越性能的理論基礎卻一直研究不足。

最近，來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中，他們對 transformer 進行了逆向工程，尋找到了一些最佳化方法。論文《Uncovering mesa-optimization algorithms in Transformers》：有理論基礎，我們就可以進行深度最佳化了。

論文鏈接：https://arxiv.org/abs/2309.05858

作者證明，最小化通用自回歸損失會產生在Transformer 的前向傳遞中運行的基於輔助梯度的最佳化演算法。這種現象最近被稱為「mesa 優化（mesa-optimization）」。此外，研究人員發現所得的 mesa 最佳化演算法表現出上下文中的小樣本學習能力，與模型規模無關。因此，新的結果對先前大語言模型中出現的小樣本學習的原理進行了補充。

研究人員認為：Transformers 的成功是基於其在前向傳遞中實現mesa 最佳化演算法的架構偏差：(i) 定義內部學習目標，以及(ii) 對其進行優化。

有理論基礎，我們就可以進行深度最佳化了。

^{圖1：新假設的說明：最佳化自回歸Transformer fθ 的權重θ 會產生在模型前向傳播演算法。作為輸入序列 s_1, . 。。， s_t 被處理到時間步t，Transformer (i) 建立一個由輸入- 目標關聯對組成的內部訓練集，(ii) 透過結果資料集定義內部目標函數，用於衡量內部模型的效能使用權重W， (iii) 最佳化該目標並使用學習的模型產生未來的預測}^。

該研究的貢獻包括：

概括了von Oswald 等人的理論，並展示了從理論上，Transformers 是如何透過使用基於梯度的方法優化內部構建的目標來自回歸預測序列下一個元素的。
透過實驗對在簡單序列建模任務上訓練的Transformer 進行了逆向工程，並發現強有力的證據表明它們的前向傳遞實現了兩步演算法：(i ) 早期自註意力層透過分組和複製標記來建立內部訓練資料集，因此隱式地建立內部訓練資料集。定義內部目標函數，(ii) 更深層最佳化這些目標以產生預測。
與LLM 類似，實驗表明簡單的自回歸訓練模型也可以成為上下文學習者，而即時調整對於改善LLM 的上下文學習至關重要，也可以提高特定環境中的表現。
受發現注意力層試圖隱式優化內部目標函數的啟發，作者引入了mesa 層，這是一種新型注意力層，可以有效地解決最小二乘優化問題，而不是只採取單一梯度步驟來實現最優。實驗證明單一 mesa 層在簡單的順序任務上優於深度線性和 softmax 自註意力 Transformer，同時提供更多的可解釋性。

有理論基礎，我們就可以進行深度最佳化了。

在初步的語言建模實驗後發現，用mesa 層替換標準的自註意力層獲得了有希望的結果，證明了該層具有強大的上下文學習能力。

基於最近人們的工作表明，經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降（GD）演算法。在這裡，作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。

首先分析在簡單線性動力學上訓練的 transformer，其中每個序列由不同的 W* 產生 - 以防止跨序列記憶。在這個簡單的設定中，作者展示了 transformer 建立 mesa 資料集，然後使用預處理的 GD 優化 mesa 目標。

有理論基礎，我們就可以進行深度最佳化了。

該研究在聚合相鄰序列元素的 token 結構上訓練深度 transformer。有趣的是，這種簡單的預處理會產生極其稀疏的權重矩陣（只有不到 1% 的權重非零），從而產生逆向工程演算法。

有理論基礎，我們就可以進行深度最佳化了。

對於單層線性自註意力，權重對應一個 GD 步驟。對於深度 transformer，可解釋性就變得困難。該研究依靠線性探測並檢查隱藏激活是否可以預測自回歸目標或預處理輸入。

有趣的是，兩種探測方法的可預測性都會隨著網路深度的增加而逐漸提高。這項發現顯示模型中隱藏著預處理的 GD。

有理論基礎，我們就可以進行深度最佳化了。

^{圖 2中經過訓練期間使用期間的線性自我注意力層。}

該研究發現，在建構中使用所有自由度時，可以完美地擬合訓練層，不僅包括學習的學習率η，也包括一組學習的初始權重W_0。重要的是，如圖 2 所示，學得的 one-step 演算法的性能仍然遠遠優於單一 mesa 層。

我們可以注意到，在簡單的權重設定下，很容易透過基礎最佳化發現，該層可以最優地解決此處研究的任務。此結果證明了硬編碼歸納偏差有利於 mesa 最佳化的優勢。

憑藉著多層案例的理論見解，先分析深度線性和 softmax 只注意 Transformer。作者根據 4 通道結構設定輸入格式，有理論基礎，我們就可以進行深度最佳化了。

，這對應於選擇 W_0 = 0。

與單層模型一樣，作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析，該研究利用這個結構並建立一個演算法（RevAlg-d，其中 d 表示層數），每個層頭包含 16 個參數（而不是 3200 個）。作者發現這種壓縮但複雜的表達式可以描述經過訓練的模型。特別是，它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。

雖然 RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層 Transformer，但很難將其解釋為 mesa 最佳化演算法。因此，作者採用線性迴歸探測分析（Alain & Bengio，2017；Akyürek et al.，2023）來尋找假設的 mesa 最佳化演算法的特性。

在圖3 所示的深度線性自註意力Transformer 上，我們可以看到兩個探針都可以線性解碼，解碼性能隨著序列長度和網絡深度的增加而增加。因此，基礎最佳化發現了一種混合演算法，該演算法在原始 mesa-objective Lt (W) 的基礎上逐層下降，同時改進 mesa 最佳化問題的條件數。這導致 mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。

因此可以認為自回歸mesa-objective Lt (W) 的快速下降是透過對更好的預處理資料進行逐步（跨層）mesa 優化來實現的。

有理論基礎，我們就可以進行深度最佳化了。 ^{圖 3：建構中的 token 輸入進行反向工程的多層 Transformer 訓練。}

這表明，如果 transformer 在建置的 token 上進行訓練，它就會透過 mesa 最佳化進行預測。有趣的是，當直接給出序列元素時，transformer 會自行透過將元素分組來建構 token，研究團隊稱之為「建立 mesa 資料集」。

有理論基礎，我們就可以進行深度最佳化了。結論

該研究表明，當在標準自回歸目標下針對序列預測任務進行訓練時，Transformer 模型能夠開發基於梯度的推理演算法。因此，在多任務、元學習設定下獲得的最新結果也可以轉換到傳統的自監督 LLM 訓練設定中。

此外，研究還發現學得的自回歸推理演算法可以在無需重新訓練的情況下重新調整用途，以解決有監督的上下文學習任務，從而在單一統一框架內解釋結果。

有理論基礎，我們就可以進行深度最佳化了。

那麼，這些與上下文學習（in-context learning）有什麼關係呢？研究認為：在自回歸序列任務上訓練 transformer 後，它實現了適當的 mesa 優化，因此可以進行少樣本（few-shot）上下文學習，而無需任何微調。

有理論基礎，我們就可以進行深度最佳化了。

該研究假設 LLM 也存在 mesa 最佳化，從而提高了其上下文學習能力。有趣的是，研究還觀察到，為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質改進。

有理論基礎，我們就可以進行深度最佳化了。

有興趣的讀者可以閱讀論文原文，了解更多研究內容。

^{參考內容：}

^{https://www.reddit. com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/}

^{https://twitter.com/oswaldjoh/status/170187302910024124}

#####################124124###################################################################################124124## ##

以上是有理論基礎，我們就可以進行深度最佳化了。的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1323

PHP教程

1272

C# 教程

1251

Related knowledge

$突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。$ 突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中，精準的缺陷檢測不僅是確保產品品質的關鍵，更是提升生產效率的核心。然而，現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性，導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題，由香港科技大學廣州和思謀科技組成的頂尖研究團隊，創新地開發了「DefectSpectrum」資料集，為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示，相較於其他工業資料集，「DefectSpectrum」資料集提供了最多的缺陷標註（5438張缺陷樣本），最細緻的缺陷分類（125個缺陷類別

數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日，晶體學所測定的結構細節和精度，從簡單的金屬到大型膜蛋白，是任何其他方法都無法比擬的。然而，最大的挑戰——所謂的相位問題，仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員，開發了一種解決晶體相問題的深度學習方法PhAI，利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡，可以產生準確的電子密度圖。研究表明，這種基於深度學習的從頭算結構解決方案方法，可以以僅2埃的分辨率解決相位問題，該分辨率僅相當於原子分辨率可用數據的10%到20%，而傳統的從頭算方

英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是，相較於以GPT-4-Turbo為代表的專有大模型，開放模型在許多領域仍有明顯差距。在通用模型之外，也有一些專精關鍵領域的開放模型已被開發出來，例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說，奧數不再是問題了。本週四，GoogleDeepMind的人工智慧完成了一項壯舉：用AI做出了今年國際數學奧林匹克競賽IMO的真題，並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題，涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道，獲得28分，達到了銀牌水準。本月初，UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽（AIMO進步獎），沒想到7月還沒過，AI的做題水平就進步到了這種水平。 IMO上同步做題，做對了最難題IMO是歷史最悠久、規模最大、最負

PRO | 為什麼基於 MoE 的大模型更值得關注？ Aug 07, 2024 pm 07:08 PM

2023年，幾乎AI的每個領域都在以前所未有的速度進化，同時，AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer作為AI大模型主流架構的局面是否會撼動？為何探索基於MoE（專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

準確率達60.8%，浙大基於Transformer的化學逆合成預測模型，登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務，AI越來越多地用於加快這一過程。現有AI方法性能不盡人意，多樣性有限。在實踐中，化學反應通常會引起局部分子變化，反應物和產物之間存在很大重疊。受此啟發，浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務，迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro，該模型可以實現高品質和多樣化的預測。大量實驗表明，模型在標準基準資料集USPTO-50 K上取得了出色的性能，top-1準確率達到60.8%。

Nature觀點，人工智慧在醫學上的測試一片混亂，該怎麼做？ Aug 22, 2024 pm 04:37 PM

編輯|ScienceAI基於有限的臨床數據，數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具，以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停，這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據，與同事們建立了一系列AI模型，用於提供潛在診斷和推薦測試。一項研究表明，這些模型可以加快22.3%的就診速度，將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而，人工智慧演算法在研究中的成功只是驗證此

See all articles

有理論基礎，我們就可以進行深度最佳化了。

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題