大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫-人工智慧-PHP中文網

LLMs 概览

LLMs 資源

預訓練

LLMs 的適應性調優

使用

能力評估

#除了上述基本評估任務，LLMs 也表現出一些高階能力，需要特別評估。在第 7.2 節中，研究者討論了幾個代表性的高階能力和相應的評估方法，包括人工對齊、與外部環境的互動以及工具的操作。

首頁

科技週邊

人工智慧

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 07, 2023 pm 09:21 PM

人工智慧自然語言

自 20 世纪 50 年代图灵测试提出以来，人们始终在探索机器处理语言智能的能力。语言本质上是一个错综复杂的人类表达系统，受到语法规则的约束。因此，开发能够理解和精通语言的强大 AI 算法面临着巨大挑战。过去二十年，语言建模方法被广泛用于语言理解和生成，包括统计语言模型和神经语言模型。

近些年，研究人员通过在大规模语料库上预训练 Transformer 模型产生了预训练语言模型（PLMs），并在解决各类 NLP 任务上展现出了强大的能力。并且研究人员发现模型缩放可以带来性能提升，因此他们通过将模型规模增大进一步研究缩放的效果。有趣的是，当参数规模超过一定水平时，这个更大的语言模型实现了显著的性能提升，并出现了小模型中不存在的能力，比如上下文学习。为了区别于 PLM，这类模型被称为大型语言模型（LLMs）。

从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的大模型不断涌现。可以说，LLMs 的研究在学界和业界都得到了很大的推进，尤其去年 11 月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。LLMs 的技术进展对整个 AI 社区产生了重要影响，并将彻底改变人们开发和使用 AI 算法的方式。

考虑到 LLMs 的快速技术进步，中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展，尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源，讨论了未来发展方向等问题。对于领域内研究人员和工程师而言，这份综述是一份极其有用的学习资源。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

论文链接：https://arxiv.org/abs/2303.18223

在进入正文前，我们先来看 2019 年以来出现的各种大语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

LLMs 概览

在第一节中，研究者详细介绍了 LLMs 的背景、能力和关键技术。

LLMs 的背景

通常，大型语言模型（LLM）是指包含数千亿（或更多）参数的语言模型，这些参数是在大量文本数据上训练的，例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具体来说，LLM 建立在 Transformer 架构之上，其中多头注意力层堆叠在一个非常深的神经网络中。现有的 LLM 主要采用与小语言模型类似的模型架构（即 Transformer）和预训练目标（即语言建模）。作为主要区别，LLM 在很大程度上扩展了模型大小、预训练数据和总计算量（扩大倍数）。他们可以更好地理解自然语言，并根据给定的上下文（例如 prompt）生成高质量的文本。这种容量改进可以用标度律进行部分地描述，其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律，某些能力（例如，上下文学习）是不可预测的，只有当模型大小超过某个水平时才能观察到。

LLMs 的涌现能力

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」，这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时，它还引入了一个显著的特征：当规模达到一定水平时，性能显著高于随机的状态。以此类推，这种新模式与物理学中的相变现象密切相关。原则上，这种能力也可以与一些复杂的任务有关，而人们更关心可以应用于解决多个任务的通用能力。这里简要介绍了 LLM 的三种代表性的涌现能力：

上下文學習。 GPT-3 正式引入了上下文學習能力：假設語言模型已經提供了自然語言指令和多個任務描述，它可以透過完成輸入文字的單字序列來產生測試實例的預期輸出，而無需額外的訓練或梯度更新。

指令遵循。透過對自然語言描述（即指令）格式化的多任務資料集的混合進行微調，LLM 在微小的任務上表現良好，這些任務也以指令的形式所描述。在這種能力下，指令調優使 LLM 能夠在不使用顯式樣本的情況下透過理解任務指令來執行新任務，這可以大大提高泛化能力。

循序漸進的推理。對於小語言模型，通常很難解決涉及多個推理步驟的複雜任務，例如數學學科單字問題。同時，透過思考鏈推理策略，LLM 可以透過利用涉及中間推理步驟的 prompt 機制來解決此類任務來得出最終答案。據推測，這種能力可能是透過程式碼訓練獲得的。

關鍵技術

#接下來來看LLMs 的關鍵技術，包括了縮放、訓練、能力激發、對齊調優、工具利用等。

縮放。縮放是增加 LLMs 模型容量的關鍵因素，最開始 GPT-3 將模型參數增至 1,750 億，隨後 PaLM 進一步將模型參數增至 5,400 億。大規模參數對於湧現能力至關重要。縮放不僅針對模型大小，還與資料大小和總計算量有關。

訓練。由於規模龐大，成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分散式訓練演算法來學習 LLMs 的網路參數，經常聯合使用各種平行策略。為了支援分散式訓練，DeepSpeed 和 Megatron-LM 等最佳化框架被用來促進平行演算法的實作和部署。此外，最佳化技巧對訓練穩定性和模型表現也很重要，例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和最佳化方法，從而利用小得多的模型來預測大模型的性能。

能力激發。在大規模語料庫上經過預訓練後，LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時，這些能力可能不會明確地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用，例如思維鏈 prompt 有助於透過中間推理步驟等解決複雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優，以提高對未見過任務的泛化能力。

對齊調優。由於 LLMs 被訓練用來捕獲預訓練語料庫的資料特徵（包括高品質和低品質的資料），它們很可能會產生對有毒、有偏見和有害的文字內容。為了使 LLMs 與人類價值觀保持一致，InstructGPT 設計了一種利用強化學習和人類回饋的高效調優方法，使得 LLMs 能夠遵循預期指令。 ChatGPT 是在類似 InstructGPT 的技術上開發的，在產生高品質、無害的反應方面表現出了強大的對齊能力。

工具利用。 LLMs 本質上是基於大規模純文字語料庫訓練的文字產生器，因此在數值計算等文字表達不佳的任務上表現沒那麼好。此外 LLMs 的能力受限於預訓練數據，無法擷取最新資訊。針對這些問題，人們提出使用外部工具來彌補 LLMs 的不足，例如可以利用計算器進行精確計算，使用搜尋引擎檢索未知資訊。 ChatGPT 更是利用外部插件來聯網學習新知識，這種機制可以廣泛擴展 LLMs 的能力範圍。

LLMs 資源

考慮到具有挑戰性的技術問題和龐大的運算資源需求，開發或複製 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗，並重新使用公開的資源來進行漸進式的開發或實驗研究。

在第三節中，研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的函式庫。下表 1 為近年來百億參數以上大模型的統計資料。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

下表 2 列出了常用的資料來源。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

預訓練

預先訓練建立了 LLMs 的能力基礎。透過對大規模語料庫的預訓練，LLMs 可以獲得基本的語言理解和生成技能。在這個過程中，預訓練語料庫的規模和品質是 LLMs 獲得強大能力的關鍵。此外，為了有效地預先訓練 LLMs，模型架構、加速方法和最佳化技術都需要精心設計。在第四節中，研究者首先在第 4.1 節討論了資料的收集和處理，然後在第 4.2 節介紹了常用的模型架構，最後在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。

資料收集

#要開發一個強大的LLM，從各種資料來源收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文字資料集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練資料來源分佈。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

收集大量文字資料後，必須對它們進行預訓練以建立預訓練語料庫，包括去雜訊、去冗餘、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練資料的預處理 pipeline。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

架構

#在本節中，研究者回顧了LLMs的架構設計，即主流架構，預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細資訊。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

由於出色的平行化性和容量，Transformer 架構已成為開發各種LLM 的backbone，使得將語言模型擴展到數千億個參數成為可能。一般來說，現有 LLMs 的主流架構大致可以分為三大類，分別是編碼器 - 解碼器、臨時解碼器和前綴解碼器。

自 Transformer 出現以來，各種改進被相繼提出以提高其訓練穩定性，性能和計算效率。在這一部分中，研究者討論了 Transformer 四個主要部分的相應配置，包括歸一化、位置編碼、激活函數、注意力機制和偏置。

預訓練起著十分關鍵的作用，它將一般知識從大規模語料庫編碼到大規模模型參數。對於訓練 LLMs，有語言建模和去噪自編碼兩個常用的預訓練任務。

模型訓練

#在這一部分中，研究者回顧了訓練LLMs 的重要設置，技術和訓練LLMs 技巧。

對於 LLMs 的參數最佳化，研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設定。

隨著模型和資料規模的增加，在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是，需要解決兩個主要技術問題，例如透過輸入增加訓練並將更大的模型載入到 GPU 記憶體中。這一部分回顧了現有工作中幾種廣泛使用的方法，以解決上述兩個挑戰，即 3D 並行、ZeRO 和混合精度訓練，並就如何利用它們進行訓練給出了建議。

LLMs 的適應性調優

經過預訓練，LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明，LLMs 的能力可以根據具體目標進一步調整。在第五節中，研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法，即指令調優（instruction tuning）和對齊調優（alignment tuning）。前一種方法主要是為了提高或解鎖 LLMs 的能力，而後者則是為了讓 LLMs 的行為與人類的價值觀或偏好一致。

指令調優

#本質上，指令調優是在自然語言形式的格式化實例集合上微調預訓練LLMs 的方法，這與監督微調和多任務提示訓練高度相關。為了執行指令調優，我們首先需要收集或建構指令格式的實例。然後，我們通常使用這些格式化實例以監督學習方式微調 LLMs（例如，使用序列到序列損失進行訓練）。在指令調整後，LLMs 可以展現出卓越的能力，泛化出能解決未見任務的能力，即使在多語言環境中也是如此。

最近的一項調查對指令調校研究進行了系統性的概述。相較之下，本文主要關注指令調校對 LLMs 的影響，並提供實例收集和調優的詳細指南或策略。此外，本文也討論了使用指令調校來滿足使用者的實際需求，這已廣泛應用於現有的 LLMs，例如 InstructGPT 和 GPT-4。

格式化實例建構：通常，指令格式的實例由任務描述（稱為指令）、輸入輸出對和少量演示（可選）組成。作為重要的公共資源，現有研究已經發布了大量以自然語言格式化的標記資料（請參閱表 5 中的可用資源清單）。接下來，本文將介紹建構格式化實例的兩種主要方法（參見圖 4 中的插圖），然後討論實例建構的幾個關鍵因素。

指令調優策略：與預訓練不同，指令調優通常更有效，因為只有適度數量的實例用於訓練。雖然指令調優可以被認為是一個有監督的訓練過程，但它的最佳化在幾個方面與預訓練不同，例如訓練目標（即序列到序列損失）和最佳化配置（例如更小的批次）大小和學習率），這在實踐中需要特別注意。除了這些最佳化配置之外，指令調優還需要考慮兩個重要面向：

平衡資料分佈。
結合指令調優與預訓練。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

對對齊調優

這部分首先介紹了對齊的背景及其定義和標準，然後重點介紹了用於對齊LLMs 的人類反饋數據的收集，最後討論了用於對齊調整的人類反饋強化學習的關鍵技術。

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

使用

在預先訓練或適應性調整之後，使用LLMs 的一個主要方法是為解決各種任務設計合適的prompt 策略。一個典型的 prompt 方法是上下文學習（in-context learning），它以自然語言文本的形式製定了任務描述或演示。此外，思維鏈 prompting 方法可以透過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中，研究者詳細介紹了這兩種技術的細節。

上下文學習

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

#作為一種特殊的prompt 形式，上下文學習（ICL）是GPT-3 首次提出的，它已經成為利用LLMs 的典型方法。

思考鏈 prompt

思考鏈（CoT）是一種改進的 prompt 策略，可以提高 LLM 在複雜推理任務中的表現，如算術推理、常識推理和符號推理。 CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來建構 prompt，而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中，研究者詳細說明了 CoT 與 ICL 的用法，並討論 CoT 何時有效以及為何有效。

能力評估

為了研究 LLMs 的有效性和優越性，研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用於語言生成和理解的 LLMs 的基本評估任務，然後介紹幾種具有更複雜設定或目標的 LLMs 的高級任務，最後討論了現有的基準和實證分析。

基本評估任務

大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫

圖7：一個公開LLM 的內在和外在幻覺的例子（訪問日期：2023 年3 月19 日）。作為內在幻覺的例子，LLM 對 Cindy 和 Amy 之間的關係給出了一個與輸入相矛盾的判斷。對於外在幻覺，在這個例子中，LLM 似乎對 RLHF（從人類回饋中強化學習）的含義有不正確的理解，儘管它能正確理解 LLM 的含義。

高階任務評估

#除了上述基本評估任務，LLMs 也表現出一些高階能力，需要特別評估。在第 7.2 節中，研究者討論了幾個代表性的高階能力和相應的評估方法，包括人工對齊、與外部環境的互動以及工具的操作。

總結與未來方向

在最後一節中，研究者總結了這次調查的討論，並從以下幾個方面介紹了LLMs 的挑戰和未來發展方向。

理論和原則：為了理解 LLM 的基本工作機制，最大的謎團之一是資訊如何透過非常大的深度神經網路進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是，縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明，當語言模型的參數規模增加到一個臨界點（如10B）時，一些新興能力會以一種意想不到的方式出現（性能的突然飛躍），典型的包括上下文學習、指令跟隨和分步推理。這些「湧現」的能力令人著迷，但也令人困惑：LLMs 何時以及如何獲得這些能力？最近的一些研究要么是進行廣泛的體驗，調查新興能力的效果和這些能力的促成因素，要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個主題，然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由於湧現能力與自然界中的相變有著密切的相似性，跨學科的理論或原則（例如 LLMs 是否可以被視為某種複雜系統）可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索，對於開發下一代的 LLMs 很重要。

###模型架構：由於可擴展性和有效性，由堆疊的多頭自註意力層組成的 Transformer 已成為建構 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的效能，如神經網路配置和可擴展的平行訓練（見 4.2.2 節討論）。為了進一步提高模型的容量（如多輪對話能力），現有的 LLMs 通常保持較長的上下文長度，例如，GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此，一個實際的考量是減少標準的自註意力機制所產生的時間複雜性（原始的二次成本）。 ######

此外，研究更有效率的 Transformer 變體對建構 LLMs 的影響是很重要的，例如稀疏注意力已經被用於 GPT-3。災難性遺忘也一直是神經網路的挑戰，這也對 LLMs 產生了負面影響。當用新的資料調整 LLMs 時，原先學到的知識很可能會被破壞，例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀一致時，也會出現類似的情況，這稱為對齊稅（alignment tax）。因此有必要考慮用更靈活的機製或模組來擴展現有的架構，以有效支援資料更新和任務專業化。

模型訓練：在實踐中，由於巨大的計算量以及對資料品質和訓練技巧的敏感性，預訓練可用的 LLMs 非常困難。因此，考慮到模型有效性、效率優化和訓練穩定性等因素，開發更系統化、更經濟的預訓練方法來優化 LLMs 變得尤為重要。發展更多的模型檢查或效能診斷方法（例如 GPT-4 中的可預測縮放），以便在訓練中發現早期的異常問題。此外，它還要求有更靈活的硬體支援或資源調度機制，以便更好地組織和利用運算叢集中的資源。由於從頭開始預先訓練 LLMs 的成本很高，因此必須設計一個合適的機制，根據公開的模型檢查點（例如 LLaMA 和 Flan-T5）不斷地預訓練或微調 LLMs。為此，必須解決一些技術問題，包括資料不一致、災難性遺忘和任務專業化。到目前為止，仍然缺乏具有完整的預處理和訓練日誌（例如準備預先訓練資料的腳本）的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外，發展更多改進的調整策略和研究有效激發模型能力的機制也很重要。

模型的使用：由於微調在實際應用中的成本很高，prompt 已成為使用 LLMs 的突出方法。透過將任務描述和演示範例結合到 prompt 中，上下文學習（prompt 的一種特殊形式）賦予了 LLMs 在新任務上良好的表現，甚至在某些情況下超過了全數據微調模型。此外，為了提高複雜推理的能力，人們提出了先進的 prompt 技術，例如思維鏈（CoT）策略，它將中間的推理步驟納入 prompt。然而，現有的 prompt 方法仍有以下幾個缺點。首先，它在設計prompt 時需要大量的人力，因此為解決各種任務而自動產生有效的prompt 將非常有用；其次，一些複雜的任務（如形式證明和數位計算）需要特定的知識或邏輯規則，而這些知識或規則可能無法用自然語言描述或用例子來證明，因此開發資訊量更大、更靈活的任務格式化的prompt 方法很重要；第三，現有的prompt 策略主要集中在單圈的表現上，因此開發用於解決複雜任務的互動式prompt 機制（如透過自然語言對話）非常有用，ChatGPT 已經證明了這一點。

安全與對齊：儘管 LLMs 具備相當的能力，但它的安全性問題與小型語言模型相似。例如，LLMs 表現出產生幻覺文本的傾向，例如那些看似合理但可能與事實不符的文本。更糟的是，LLMs 可能被有意的指令激發，為惡意的系統產生有害的、有偏見的或有毒的文本，導致濫用的潛在風險。若要詳細討論 LLMs 的其他安全性問題（如隱私、過度依賴、虛假資訊和影響操作），讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法，來自人類回饋的強化學習（RLHF）已被廣泛使用，它將人類納入訓練循環，以發展良好的 LLMs。為了提高模型的安全性，在 RLHF 製程中加入安全相關的 prompt 也很重要，如 GPT-4 所示。然而，RLHF 在很大程度上依賴專業標籤人員的高品質的人類回饋數據，使得它很難在實踐中得到正確的實施。因此，有必要改進 RLHF 框架，以減少人類標籤員的工作，並尋求一種更有效的註釋方法，保證資料質量，例如可以採用 LLMs 來協助標註工作。最近，紅色團隊被採用來提高 LLMs 的模型安全性，它利用收集的對抗性 prompt 來完善 LLMs（即避免紅色團隊的攻擊）。此外，透過與人類溝通建立 LLMs 的學習機制也很有意義，人類透過聊天給予的回饋可以直接被 LLMs 利用來進行自我完善。

应用和生态系统：由于 LLMs 在解决各种任务方面表现出强大的能力，它们可以被应用于广泛的现实世界的应用（例如，遵循特定的自然语言指令）。作为一个显著的进步，ChatGPT 已经潜在地改变了人类获取信息的方式，这带来了新必应的发布。在不久的将来，可以预见，LLMs 将对信息搜索技术产生重大影响，包括搜索引擎和识别系统。

此外，随着 LLMs 的技术升级，智能信息助理的发展和使用将得到极大的促进。在更广泛的范围内，这一波技术创新倾向于建立一个由 LLMs 授权的应用程序的生态系统（例如，ChatGPT 对插件的支持），这将与人类生活密切相关。最后，LLMs 的崛起为通用人工智能（AGI）的探索提供了启示。它有希望开发出比以往更多的智能系统（可能有多模态信号）。同时，在这个发展过程中，人工智能的安全性应该是首要关注的问题之一，也就是说，让人工智能为人类带来好处而不是坏处。

以上是大型語言模型綜述全新出爐：從T5到GPT-4最全盤點，國內20餘位研究者共同撰寫的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn