RLHF即從人類回饋中強化學習。本文就來介紹大語言模型(LLM)是如何與RLHF結合起來的。
強化學習是機器學習的一個分支,它透過代理與環境互動來學習最佳策略。代理選擇行動,這些行動會影響環境狀態的轉換,並得到相應的獎勵。獎勵是強化學習智能體調整策略的回饋訊號。在訓練階段,智能體會根據獎勵調整策略,以最大化長期回報。
因此,設計適當的獎勵系統至關重要,它是強化學習的關鍵。而RLHF則透過整合人類的回饋,將人類納入訓練過程中,以增強強化學習代理人的訓練效果。
大型語言模型(LLM)的強化學習微調過程通常包含三個階段。首先,我們從經過預先訓練的語言模型開始。由於LLM需要大量的訓練數據,從零開始透過人工回饋進行訓練是不切實際的。因此,我們可以透過無監督學習的方式進行預先訓練,利用現有的語言模型進行輸出生成。 在預訓練完成後,接下來是微調階段。在此階段,我們將使用強化學習演算法來對LLM進行最佳化。透過與環境的交互,LLM可以從環境中獲得回饋,並透過調整模型的參數來優化其輸出。 最後一個階段是後續微調。在這一階段,LLM將與特定任務進行交互,並透過
接下來,進入第二階段,我們需要為RL系統建立獎勵模型。在這個階段,我們訓練另一個機器學習模型,它會接收主模型產生的文字並為其產生一個品質分數。通常,我們會使用另一個LLM模型,並進行相應的修改,使其能夠輸出一個標量值,而不是文字標記序列。這個品質分數將用作獎勵訊號,以引導主模型產生更高品質的文本。
為了訓練獎勵模型,我們需要建立一個包含LLM生成文字的品質評估資料集。每個訓練範例由一個提示和LLM產生的多個輸出組成。接下來,我們請人工評估這些生成文字的品質。然後,我們使用這些評估結果來訓練獎勵模型,以預測LLM生成文本的得分。透過在LLM的輸出和評分之間進行訓練,獎勵模型能夠建立起人類偏好的數學表示。
在最後階段,我們進行了微調,創造了一個強化學習循環。主LLM的副本被用作RL代理。在每個訓練集上,LLM從資料集中獲取多個提示,並產生文字。接著,該文本被傳遞給獎勵模型,該模型會給出一個分數,用來評估其與人類偏好的一致性。然後,我們更新LLM,以產生在獎勵模型上得分更高的輸出。
雖然這是語言模型的RLHF通用框架,但不同的實現目標需要對應修改。
RLHF中對語言模型的另一個考慮是在獎勵最佳化和語言一致性之間保持平衡。儘管獎勵模型只是對人類偏好的不完美近似,但代理LLM可能會透過違反語法或邏輯一致性來最大化獎勵,這與大多數RL系統類似。為了防止這種情況發生,ML團隊保留了原始LLM的副本,並在RL循環中使用。他們將原始LLM的輸出與RL訓練的LLM的輸出之間的差異(KL散度)作為負值整合到獎勵訊號中,以防止模型和原始輸出之間的偏差過大。這種策略旨在平衡獎勵優化和語言一致性之間的關係。
以上是語言模型中的RLHF技術的起源與應用是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!