ChatGPT：強大模型、注意力機制和強化學習的融合-人工智慧-PHP中文網

大型語言模型" >大型語言模型

GPT和Self-Attention" >GPT和Self-Attention

ChatGPT" >ChatGPT

第1步：监督微调（SFT）模型" >第1步：监督微调（SFT）模型

第2步：獎勵模型" >第2步：獎勵模型

第3步：強化學習模型" >第3步：強化學習模型

模型的評估" >模型的評估

首頁

科技週邊

人工智慧

ChatGPT：強大模型、注意力機制和強化學習的融合

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2023 pm 06:16 PM

機器學習 chatgpt 自然語言

本文主要介紹為ChatGPT提供動力的機器學習模型，將從大型語言模型的介紹開始，深入探討使GPT-3得到訓練的革命性的自註意機制，然後深入到從人類反饋強化學習，這是使ChatGPT出類拔萃的新技術。

大型語言模型

ChatGPT是一類機器學習自然語言處理進行推論的模型，稱為大型語言模型（LLM）。 LLM消化了大量的文本數據，並推斷出文本中單字之間的關係。在過去的幾年裡，隨著運算能力的進步，這些模型也在不斷發展。隨著輸入資料集和參數空間大小的增加，LLM的能力也增加。

語言模型的最基本的訓練涉及預測一連串詞彙中的一個單字。最常見的是，這被觀察為下一個標記預測和屏蔽語言模型。

ChatGPT：強大模型、注意力機制和強化學習的融合

產生的下一個標記預測和屏蔽語言模型的任意範例

在這種基本的排序技術中，通常是透過長短記憶（LSTM ）模型來部署的，模型是在給定環境和上下文的情況下，用統計上最有可能的詞來填補空白。這種順序建模結構有兩個主要限制。

該模型無法對周圍的一些單字比其他單字更重視。在上面的例子中，雖然“閱讀”可能最常與“討厭”聯繫在一起，但在資料庫中，“雅各布”可能是一個狂熱的讀者，模型應該更重視“雅各布”而不是“閱讀”，並選擇“愛”而不是“討厭”。
輸入的資料是單獨且依序處理的，而不是作為一個整體語料庫。這意味著當訓練LSTM時，上下文的視窗是固定的，只在序列中的幾個步驟的單一輸入之外延伸。這限制了詞與詞之間關係的複雜性以及可以得出的含義。

為了回應這個問題，2017年，Google Brain的一個團隊引進了轉換器。與LSTM不同，轉換器可以同時處理所有輸入資料。利用自我注意機制，該模型可以相對於語言序列的任何位置為輸入資料的不同部分賦予不同的權重。這項特性使得在向LLM注入意義方面有了大規模的改進，並且能夠處理更大的資料集。

GPT和Self-Attention

#生成式預訓練轉換器（GPT）模型於2018年首次由OpenAI推出，名為GPT -1。這些模型在2019年的GPT-2、2020年的GPT-3以及最近的2022年的InstructGPT和ChatGPT中繼續發展。在將人類回饋整合到系統中之前，GPT模型演化的最大進步是由計算效率的成就所推動的，這使得GPT-3能夠在比GPT-2多得多的資料上進行訓練，使其擁有更多樣化的知識基礎和執行更廣泛任務的能力。

ChatGPT：強大模型、注意力機制和強化學習的融合

GPT-2（左）與GPT-3（右）的比較。

所有的GPT模型都利用了轉換器結構，這意味著它們有一個編碼器來處理輸入序列，一個解碼器來產生輸出序列。編碼器和解碼器都具有多頭的自我注意機制，允許模型對序列的各個部分進行不同的加權，以推斷出意義和背景。此外，編碼器利用屏蔽語言模型來理解單字之間的關係，並產生更易於理解的反應。

驅動GPT的自註意機制的工作原理，是透過將標記（文字片段，可以是一個字、一個句子或其他文字分組）轉換為代表該標記在輸入序列中的重要性的向量。為了做到這一點，該模型：

1.为输入序列中的每个标记创建一个query，key，和value向量。
2.通过取两个向量的点积，计算步骤1中的query向量与其他每个标记的key向量之间的相似性。
3.通过将第2步的输出输入一个softmax函数中来生成归一化的权重。
4.通过将步骤3中产生的权重与每个标记的value向量相乘，产生一个最终向量，代表该序列中标记的重要性。

GPT使用的“multi-head”注意机制是自我注意的一种进化。该模型不是一次性执行第1-4步，而是并行地多次迭代这一机制，每次都会生成一个新的query，key，和value向量的线性投影。通过以这种方式扩展自我注意，该模型能够掌握输入数据中的子含义和更复杂的关系。

ChatGPT：強大模型、注意力機制和強化學習的融合

从ChatGPT生成的屏幕截图。

尽管GPT-3在自然语言处理方面引入了显著的进步，但它在与用户意图保持一致的能力方面是有限的。例如，GPT-3可能会产生以下输出结果：

缺乏帮助性，意味着它们不遵循用户的明确指示。
含有反映不存在的或不正确的事实的幻觉。
缺乏可解释性，使人类难以理解模型是如何得出一个特定的决定或预测的。
包含有害或有冒犯性的内容以及传播错误信息的有害或偏见内容。

在ChatGPT中引入了创新的训练方法，以抵消标准LLM的一些固有问题。

ChatGPT

ChatGPT是InstructGPT的衍生产品，它引入了一种新颖的方法，将人类反馈纳入训练过程，使模型的输出与用户的意图更好地结合。来自人类反馈的强化学习（RLHF）在openAI的2022年论文《Training language models to follow instructions with human feedback》中得到了深入的描述，并在下面进行了简单讲解。

第1步：监督微调（SFT）模型

第一次开发涉及微调GPT-3模型，雇用40个承包商来创建一个有监督的训练数据集，其中输入有一个已知的输出供模型学习。输入或提示是从开放API的实际用户输入中收集的。然后，标签人员对提示编写适当的响应，从而为每个输入创建一个已知的输出。然后，GPT-3模型使用这个新的、有监督的数据集进行微调，以创建GPT-3.5，也称为SFT模型。

为了最大限度地提高提示信息数据集的多样性，只有200条提示信息可以来自任何给定的用户ID，并且删除了共享长通用前缀的任何提示信息。最后，删除了包含个人身份信息（PII）的所有提示。

在匯總了OpenAI API的提示資訊後，也要求標籤人員建立提示資訊樣本，以填補那些只有極少真實樣本資料的類別。所關注的類別包括：

普通提示：任何任意的詢問。
少量的提示：包含多個查詢/回答對的指令。
基於使用者的提示：對應於為OpenAI API請求的特定用例。

在產生回應時，請標籤人員盡力推斷出使用者的指令是什麼。該文件描述了提示請求資訊的三種主要方式。

直接：「告訴我關於...」
#寥寥數語：給出這兩個故事的例子，再寫一個關於同一主題的故事。
續寫：給出一個故事的開頭，完成它。

對來自OpenAI API的提示和標籤人員手寫的提示進行彙編，產生了13,000個輸入/輸出樣本，用於監督模型的使用。

ChatGPT：強大模型、注意力機制和強化學習的融合

圖片（左）插入自「Training language models to follow instructions with human feedback」 OpenAI等，2022 https://arxiv.org/pdf/2203.02155.pdf。（右）用紅色添加的其他上下文。

第2步：獎勵模型

在步驟1中訓練了SFT模型後，該模型對使用者的提示產生了更好的、一致的反應。下一個改進是以訓練獎勵模型的形式出現的，其中模型的輸入是一系列的提示和響應，而輸出是一個標度值，稱為獎勵。為了利用強化學習（Reinforcement Learning），獎勵模型是必要的，在強化學習中，模型會學習產生輸出以最大化其獎勵（見步驟3）。

為了訓練獎勵模型，標籤人員對單一的輸入提示提供4到9個SFT模型輸出。他們被要求將這些輸出從最好的到最糟糕的進行排序，創建輸出排序的組合，如下所示：

ChatGPT：強大模型、注意力機制和強化學習的融合

響應排序組合的範例。

將每個組合作為一個單獨的數據點納入模型，會導致過度擬合（無法推斷出所見數據之外的內容）。為了解決這個問題，模型是利用每組排名作為一個單獨的批次資料點來建立的。

ChatGPT：強大模型、注意力機制和強化學習的融合

圖片（左）插入自「Training language models to follow instructions with human feedback」 OpenAI等，2022 https://arxiv.org/pdf/2203.02155.pdf。（右）用紅色添加的其他上下文。

第3步：強化學習模型

在最後階段，向模型提出一個隨機提示並回傳一個反應。反應是使用模型在第2步學到的「策略」產生的。該策略代表機器已經學會用於實現其目標的策略；在這種情況下，就是將其獎勵最大化。基於步驟2中開發的獎勵模型，然後為提示和回應對確定一個標度獎勵值。然後，獎勵會回饋到模型中以發展策略。

2017年，Schulman等人引入了近端策略優化（PPO），該方法用於在生成每個響應時更新模型的策略。 PPO納入了SFT模型中的Kullback-Leibler（KL）懲罰。 KL散度測量兩個分佈函數的相似性，並對極遠距離進行懲罰。在這種情況下，使用KL懲罰可以減少響應與步驟1中訓練的SFT模型輸出的距離，以避免過度優化獎勵模型並與人類意圖資料集發生太大偏差。

ChatGPT：強大模型、注意力機制和強化學習的融合

圖片（左）插入自「Training language models to follow instructions with human feedback」 OpenAI等，2022 https://arxiv.org/pdf/2203.02155.pdf。（右）用紅色添加的其他上下文。

這個過程的第2和第3步可以重複迭代，儘管在實踐中還沒有廣泛地進行。

ChatGPT：強大模型、注意力機制和強化學習的融合

從ChatGPT產生的螢幕截圖。

模型的評估

對模型的評估是透過在訓練期間預留一個模型未見過的測試集來進行的。在測試集上，進行一系列的評估，以確定模型是否比其前身GPT-3表現更好。

有用性：模型推論和遵循使用者指令的能力。標籤人員在85±3%的時間裡喜歡InstructGPT的輸出，而不是GPT-3。

真實性：模型出現幻覺的傾向。在使用TruthfulQA資料集進行評估時，PPO模型產生的輸出在真實性和資訊量方面都有小幅增加。

無害性：模型避免不適當的、貶低的和詆毀的內容的能力。無害性是使用RealToxicityPrompts資料集來測試的。該測試在三種條件下進行。

指示提供尊重的反應：導致有害反應的明顯減少。
指示提供反應，沒有任何關於尊重的設定：有害性沒有明顯變化。
指導提供有害的反應：反應實際上比GPT-3模型的有害性明顯增加。

關於創建ChatGPT和InstructGPT所使用方法的更多信息，請閱讀OpenAI發表的原始論文“Training language models to follow instructions with human feedback”，2022 https://arxiv .org/pdf/2203.02155.pdf。

ChatGPT：強大模型、注意力機制和強化學習的融合

從ChatGPT產生的螢幕截圖。

以上是ChatGPT：強大模型、注意力機制和強化學習的融合的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7490

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出，是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一，能夠創建具有複雜細節的圖像。然而，在推出時，它不包括

一文帶您了解SHAP：機器學習的模型解釋 Jun 01, 2024 am 10:58 AM

在機器學習和資料科學領域，模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用，理解模型的決策過程變得尤為重要。可解釋人工智慧（ExplainableAI|XAI）透過提高模型的透明度，幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現，以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

使用C++實現機器學習演算法：常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫，並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法，有效地管理記憶體和使用高效能矩陣操作。

可解釋性人工智慧：解釋複雜的AI/ML模型 Jun 03, 2024 pm 10:08 PM

譯者|李睿審校|重樓人工智慧（AI）和機器學習（ML）模型如今變得越來越複雜，這些模型產生的產出是黑盒子－無法向利害關係人解釋。可解釋性人工智慧（XAI）致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題，確保他們理解這些模型實際上是如何做出決策的，並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧（XAI）技術，以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度：為了讓人工智慧系統被廣泛接受和信任，使用者需要了解決策是如何做出的

Flash Attention穩定嗎？ Meta、哈佛發現其模型權重偏差呈現數量級波動 May 30, 2024 pm 01:24 PM

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差，提供了新的研究架構。據所周知，大語言模型的訓練常常需要數月的時間，使用數百甚至上千個GPU。以LLaMA270B模型為例，其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性，導致訓練大模型存在著獨特的系統性挑戰。最近，許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況，它們通常以損失尖峰的形式出現，例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因，

你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支，它賦予電腦從數據中學習的能力，並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用，從影像辨識和自然語言處理到推薦系統和詐欺偵測，它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論，其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學（Symbolism），又稱符號主義，強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程，透過現有的