百億、千億級參數的基礎模型之後，我們正步入以資料為中心的時代？-人工智慧-PHP中文網

近年來，GPT-3、CLIP、DALL-E 、Imagen、Stabile Diffusion 等基礎模型的出現令人驚嘆。這些模型展現出的強大生成能力和情境學習能力，在幾年前都是難以想像的。本文將探討這些大規模技術的商業化。這些模型如今不只是產業巨頭主宰的領地，其價值越來越體現在對這一領域和關鍵問題的描述中，而其核心即數據。基礎模型迅速發展產生的影響尚無定論，所以很多內容是基於推測。

百億、千億級參數的基礎模型之後，我們正步入以資料為中心的時代？

prompt: "taco cat"（不要太當真）

從機器學習的角度來看，任務的概念是絕對的基礎—— 我們創建訓練資料來指定任務，並透過訓練進行泛化。因此，幾十年來，業界一直有兩類主要看法：

「無用輸入，無用輸出」，即向模型輸入的資料 / 特徵資訊決定模型成敗。
「太多參數會導致過度擬合」，近 20 餘年來，通用、稀疏模型的發展大行其道。一般觀念認為稀疏模型參數較少，有助於降低過度擬合，因而可以更好地進行泛化。

這些觀點整體來說很有道理，但也存在著一定的誤導性。

基礎模型正在改變我們對任務的理解，因為它可以基於廣泛的資料訓練且用於多種任務。即使有些使用者對自己的目標任務理解並不清晰，也可以方便地應用這些模型而不必進行特定的訓練。這些模型可以用自然語言或一個介面來控制，領域專家藉此推動模型的使用，同時希望馬上在新環境中體驗各種神奇功能。在這個探索過程中，使用者第一步並不是策劃特定的訓練資料集，而是玩味、構想，迅速迭代他們的想法。有了基礎模型，我們就想進一步了解如何遷移到一系列任務上，包括好些我們尚未預想到的任務。

為了在下一波人工智慧發展浪潮獲益，我們或許需要重新檢視以往主流觀點的限制（和智慧）。在這篇文章中，我們將由此開始，探討在基礎模型中能看到何種變化，最後將討論我們如何看待基礎模型與傳統方法相適應。

無用輸入，無用輸出－就這？

無任務基礎模型正在爆炸式發展，到目前為止，很多都是關於模型架構和工程的，但這些模型相融合的跡像也開始顯露。數據成為基礎以及用以區分的根本點，這方面有先例嗎？我們已經見識了在監督機器學習中，以模型為中心和以資料為中心兩種方法之間來回搖擺的狀態。

在 2010 年代後半段的一系列專案中，特徵品質是關鍵。在舊模型中，特徵是編碼領域知識的工具。這些特徵不太穩定，處理的從業者需要掌握關於如何表徵這些資訊以獲得更穩定和可靠的預測的低層次細節。

深度學習之所以成功，是因為人們在這些方面的表現很差。深度學習革命正如火如荼，arXiv 上的新模型層出不窮，實為震撼。這些模型沿用先前的手動操作，如特徵工程，並將其完全自動化。模型非常優秀，能透過深度學習將文字和圖像等原始資料成功特徵化。這是生產力的極大提升。然而，這些模型並不完美，對這領域的不斷認識依然重要。那麼，如何將其融入模型呢？

我們可以看到，使用者以訓練資料為載體，高效輸入資訊、解釋應用程式並與模型互動。這一切發生在「黑暗」中，沒有工具、理論也沒有摘要。我們認為，使用者應該能夠對自己的資料進行一些基本的程式設計抽象，因此 Snorkel 專案誕生了（然後是公司）。在知識層面，我們由此進入了以資料為中心的 AI 和弱監督時代。我們可以從中學到兩個重要教訓：

一旦某項技術穩定下來，其價值指向就會回到資料上。在這種情況下，隨著 TensorFlow、PyTorch、MXNet、Theano 等技術的出現，深度學習技術開始商業化，但對特定問題的描述並沒有給出廣泛的資料分佈、任務規格等。因此，成功與否取決於如何將相關資訊引入模型；
我們可以（也需要）處理雜訊。基礎的數學和工程原則上有助於噪音處理。使用者很難在訓練資料中完美地表達他們的知識，不同資料來源的品質可能也不盡相同。在研究弱監督的基本理論時，我們發現模型可以從含噪資料中學到很多（並非所有無用資料都不好）。也就是說，要避免輸入無用資訊 —— 但也不必對資料太過吹毛求疵。

prompt: "noisy image". 有沒有從含噪影像看到什麼有意思的東西？

簡單來說，資料將你的問題與分析編碼 —— 就算科技商品化，資料的價值依然存在。所以，不是說無用資訊很好，而是不要把這個區別過於絕對化。數據有用或無用，在於是否以最有效的方式對其開發利用。

基礎模型是基於大量資料進行訓練，廣泛應用於各種任務，為資料管理帶來全新挑戰。隨著模型 / 架構不斷商品化，我們需要了解如何有效率地管理大量資料以確保模型用途的普遍性。

太多參數會導致過擬合？

為什麼我們會看到神奇的上下文特徵？建模選擇（架構和演算法）如何促成了這一點？大型語言模型的神奇特徵來自神秘的模型配置嗎？

大約十年前，粗略的機器學習泛化理論認為，如果一個模型太簡約（即無法擬合太多虛假特徵），那麼它就會泛化。人們對此可能有更精準的描述，這些都是諸如 VC dimension、Rademacher 複雜度等理論領域的主要成就。在這個過程中，我們發現似乎少量參數對於泛化也是必要的。但事實並非如此，過參數化是一個主要問題，不過現在我們有大模型作為反例：這些大模型（參數多於數據點）可以擬合各種繁雜到讓人頭大的函數，但它們仍然是泛化的（即使使用隨機標籤）。

關於過參數化的觀點對我們有誤導性，最近有見解開啟了新方向。我們看到這些大模型中出現了一些神奇特徵，但時下的流行觀念認為，只有某些經機器訓練的特定架構促成了這些特徵，而這些特定架構很少有人能接觸到。我們和其他研究工作的一個方向是嘗試以簡單、經典的模型來執行這些神奇的特徵。我們最近的狀態空間模型是基於數十年的訊號處理成果（因此可擬合經典模型），展現出一定的脈絡能力。

更令人驚訝的是，即使是經典的 BERT 雙向模型也具有上下文能力！相信還有很多人在寫相關論文，可以寄給我們，我們會認真閱讀並引用。我們認為，上下文學習的神奇特徵就在我們身邊，而且宇宙比我們所理解的更為神奇。或者更冷靜地看，也許人類只是在理解條件機率方面不盡人意。

在大模型框架下，事情似乎都運作得很好。基礎模型的神奇特徵看起來穩定且可商業化，數據被視為其中造成差異化的點。

現在可能就是以資料為中心的基礎模型時代了？

我們是否在重複以資料為中心的監督學習轉變？換言之，模型和工程是否在商品化？

商品化模型與開源資訊的興起。我們看到基礎模型正在商品化並投入應用 —— 嗯，感覺很「深度學習」。對我們而言，模型商品化的最大證據即其可用率。主要有兩種影響力量：人們有需求（穩定等），大公司可利用。開源興起並不是出於業餘愛好者的興趣，而是大型公司和政府以外的其他公司斷定他們需要這種東西（參見 Python 的崛起）。

等待最新的超級公司推出全新超大模型？

最大的差異來自哪裡？數據！這些工具越來越容易取得，但其實基礎模型不一定立即可用。那將如何處理如何部署？坐等新的超級公司推出全新超大模型？這可以說是一個辦法！但我們稱之為虛無主義！這個模型會否開源，很難說 —— 那麼，那些無法發送到 API 的私有資料上的基礎模型應用程式又會如何？模型會不會有 100 兆個參數 —— 多少用戶可以存取和使用？模型的訓練內容是什麼？模型主要基於公共資料進行訓練…

所以幾乎不能保證，它會知道你在乎什麼？你會如何維護基礎模型的神奇特徵，讓其為你所用？有效管理基礎模型資料（資料至關重要！）並在測試時充分利用偉大的開源模型（在測試時調整輸入和上下文資料至關重要！）都很有必要：

##資料管理和以資料為中心的標度律？預測：更聰明的資料集收集方法能造就小而美的模型。那些讓我們大開眼界的標度律論文值得關注：例如最初研究標度律的 OpenAI 以及 DeepMind 的 Chinchilla。雖然我們有預設的參考架構（transforms），但 token 的數量在某種程度上代表了資料的資訊內容。經驗告訴我們，數據在主題和品質上千差萬別。我們預感，真正重要的應該是有重疊和階次的實際資訊位元 —— 像熵這樣的資訊理論概念或能推動大小基礎模型演化。

測試時的資訊輸入與計算。基礎模型不一定立即可用，但以新的方式進行測試時計算會大為不同。考慮到使用封閉原始碼模型API 的成本且缺乏隱私性，我們近期推出了一個開放原始碼基礎模型，該模型的參數再小30 倍，透過在測試時高效使用小模型，可以在規範基準層面擊敗OpenAI 的封閉原始碼模型－此方法稱為Ask Me Anything（AMA）Prompting。在測試時，使用者透過 prompt 或對其感興趣任務的自然語言描述來控制基礎模型，prompt 設計會對效能產生巨大影響。要準確地取得 prompt 這件事複雜而艱鉅，因此 AMA 建議使用一系列不同品質的含噪 prompt，透過統計理論來應對噪音問題。 AMA 的靈感來源很多：Maieutic Prompting、Reframing GPT-k、AI chain 等等！關鍵在於我們可以用新的方式在測試時間進行計算 —— 不必只對模型進行一次 prompt！這不僅關乎訓練時的資料管理，還涉及在測試時調整輸入和上下文資料。

百億、千億級參數的基礎模型之後，我們正步入以資料為中心的時代？

prompt: "really small AI model"

從AMA 中我們看到，小模型已經具備了匹配多種任務的卓越推理能力，而大模型的關鍵價值似乎在於記憶事實數據。小模型在事實方面表現欠佳，那麼我們該如何引入數據和資訊來解決這個問題？奇怪的是，我們用 SGD 將事實儲存在神經網路中，將其轉換為模糊的浮點值… 與 DRAM 支援的鍵值儲存相比，抽象的效率似乎要低得多。但是，從AMA 的結果來看，小模型和大模型之間的差異在時間變化或領域專門化的事實方面要小得多…… 我們在蘋果構建自監督模型時，要能夠編輯我們返回的事實（出於商業原因），同時需要擬合其他運作服務的軟體工具。所以讓模型呼叫索引非常重要。時間會證明，以上是否構成使用這類模型的充分理由。

這將把我們引向何方？基礎模型與傳統方法並駕齊驅。假設以資料為中心的模型在探索和部署兩端均有進展，對於快速迭代和任務無關的工作流程 —— 探索階段，我們透過資料管理 / 測試時間策略使得現成的通用基礎模型更為有用和高效。離開探索階段的使用者會帶著更清晰任務定義，使用以資料為中心的AI 並管理訓練資料（你自己的資料很重要），以Snorkel 的方式透過利用和組合多個prompt 和/ 或基礎模型來訓練更小、更快的「專有」模型。這些模型可以在實際生產環境中部署，而且在特定任務和特定資料方面更加準確！或者還可以利用基礎模型來改進弱監督技術 —— 一些實驗室和 Snorkel 成員也為此獲得了 UAI 獎。

歸根究底，資料關乎模型的最終投產。數據是唯一沒有商品化的東西。我們仍然認為，Snorkel 對資料的看法是未來的發展方向 —— 你需要編程抽象，一種透過表達、組合和反覆糾正不同資料來源和監督訊號的方法，為最終任務訓練可部署模型的方法。

以上是百億、千億級參數的基礎模型之後，我們正步入以資料為中心的時代？的詳細內容。更多資訊請關注PHP中文網其他相關文章！