無需人工標註,自生成指令框架打破ChatGPT等LLM的成本瓶頸
ChatGPT 是今年年底 AI 圈的新晉頂流,人們驚嘆於它強大的問答語言能力和掌握的程式設計知識。但越是強大的模型,背後的技術要求就越高。
ChatGPT 是在GPT 3.5 系列模型的基礎上,引入「手動標註資料強化學習」(RLHF)來不斷微調預訓練語言模型,旨在讓大型語言模型(LLM)學會理解人類的命令,並學會根據給定的prompt 給出最優的答案。
這種技術思路是當前語言模型的發展趨勢。這類模型雖然很有發展前景的,但模型訓練和微調所需的成本非常高。
根據OpenAI 目前公開的訊息,ChatGPT 的訓練過程共分為三個階段:
首先,第一個階段是類似GPT 3.5 的有監督策略模型,這個基礎模型很難理解人類不同類型指令中蘊含的意圖,也很難判斷生成內容的品質高低。研究人員從 prompt 資料集中隨機抽取了一些範例,然後讓專業的標註人員根據指定 prompt 給出高品質的答案。這個人工過程獲得的 prompt 及其相應高品質答案被用於微調初始的有監督策略模型,使其具備基本的 prompt 理解能力,並初步提高生成答案的品質。
第二階段研究團隊抽取模型根據給定prompt 產生的多個輸出,然後讓人類研究員對這些輸出進行排序,再用排序資料訓練獎勵模型(reward model, RM)。 ChatGPT 採取 pair-wise loss 來訓練 RM。
第三階段研究團隊採用強化學習來增強預訓練模型的能力,利用上一階段學好的 RM 模型來更新預訓練模型參數。
我們可以發現,在 ChatGPT 訓練的三個階段中,只有第三階段不需要使用人工標註數據,而第一第二階段都需要大量的人工標註。因此 ChatGPT 這類模型雖然表現很好,但是為了提高其遵循指令的能力,人工成本非常高。隨著模型規模越來越大,能力範圍也越來越廣,這個問題就會越嚴重,最終成為阻礙模型發展的瓶頸。
一些研究嘗試提出解決這一瓶頸的方法,例如華盛頓大學等機構近期聯合發表了一篇論文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》,提出的新框架SELF-INSTRUCT 透過引導模型本身的生成過程,提升了預訓練語言模型的指令遵循能力。
論文網址:https://arxiv.org/pdf/2212.10560v1.pdf
#SELF-INSTRUCT 是一種半自動化過程,使用來自模型本身的指令訊號對預先訓練的LM 進行指令調整。如下圖所示,整個過程是一個迭代引導演算法。
SELF-INSTRUCT 從有限的種子集開始,引導整個生成過程的手動編寫指令。在第一階段,模型被 prompt 成為新任務生成指令,該步驟是利用現有的指令集來創建更廣泛的指令,以此定義新任務。 SELF-INSTRUCT 也為新產生的指令集建立輸入輸出實例,以用於監督指令調整。最後,SELF-INSTRUCT 也對低品質和重複指令進行修剪。整個過程是重複迭代執行的,最終模型能為大量任務產生指令。
為了驗證新方法的有效性,研究在 GPT-3 上應用 SELF-INSTRUCT 框架,最終產生大約 52k 條指令,82k 實例輸入和目標輸出。研究者觀察到 GPT-3 在 SUPER-NATURALINSTRUCTIONS 資料集中的新任務上比原始模型獲得了 33.1% 的絕對改進,與使用私人使用者資料和人工標註訓練的 InstructGPT_001 表現相當。
為了進一步評估,該研究為新任務整理了一組專家編寫的指令,並透過手動評估表明,使用SELF-INSTRUCT 的GPT-3 效能會大大優於現有使用公共指令資料集的模型,且僅比InstructGPT_001 落後5%。
SELF-INSTRUCT 提供了幾乎不需要手動標註的方法,實作了預訓練語言模型與指令對齊。已有多個工作在類似的方向上做出嘗試,都收穫了不錯的結果,可以看出這類方法對於解決大型語言模型人工標註成本高的問題非常有效。這將讓 ChatGPT 等 LLM 變得更強,走得更遠。
以上是無需人工標註,自生成指令框架打破ChatGPT等LLM的成本瓶頸的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

ChatGPT與Python的完美結合:打造智慧客服聊天機器人引言:在當今資訊時代,智慧客服系統已成為企業與客戶之間重要的溝通工具。而為了提供更好的客戶服務體驗,許多企業開始轉向採用聊天機器人的方式來完成客戶諮詢、問題解答等任務。在這篇文章中,我們將介紹如何使用OpenAI的強大模型ChatGPT和Python語言結合,來打造一個智慧客服聊天機器人,以提高

安裝步驟:1、在ChatGTP官網或手機商店下載ChatGTP軟體;2、開啟後在設定介面中,選擇語言為中文;3、在對局介面中,選擇人機對局並設定中文相譜;4 、開始後在聊天視窗中輸入指令,即可與軟體互動。

在這篇文章中,我們將介紹如何使用ChatGPT和Java開發智慧聊天機器人,並提供一些具體的程式碼範例。 ChatGPT是由OpenAI開發的困境預測轉換(GenerativePre-trainingTransformer)的最新版本,它是一種基於神經網路的人工智慧技術,可以理解自然語言並產生人類類似的文本。使用ChatGPT,我們可以輕鬆地創建自適應的聊天

chatgpt在國內可以使用,但不能註冊,港澳也不行,用戶想要註冊的話,可以使用國外的手機號碼進行註冊,注意註冊過程中要將網路環境切換成國外ip。

如何利用ChatGPT和Python實現使用者意圖辨識功能引言:在當今的數位時代,人工智慧技術逐漸成為各個領域中不可或缺的一部分。其中,自然語言處理(NaturalLanguageProcessing,NLP)技術的發展使得機器能夠理解和處理人類語言。 ChatGPT(Chat-GeneratingPretrainedTransformer)是一種基於

如何使用ChatGPTPHP建構智慧客服機器人引言:隨著人工智慧技術的發展,機器人在客服領域的應用越來越廣泛。使用ChatGPTPHP建構智慧客服機器人,可以幫助企業提供更有效率、更個人化的客戶服務。本文將介紹如何使用ChatGPTPHP建構智慧客服機器人,並提供具體的程式碼範例。一、安裝ChatGPTPHP要使用ChatGPTPHP建構智慧客服機器人

如何使用ChatGPT和Java開發一個基於人工智慧的語音助理人工智慧(ArtificialIntelligence,簡稱AI)的快速發展已經進入了各個領域,其中語音助理是受歡迎的應用之一。在這篇文章中,我們將介紹如何使用ChatGPT和Java來開發一個基於人工智慧的語音助理。 ChatGPT是一個透過自然語言互動的開源項目,由AI研究機構OpenAI提
