快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

王林
發布: 2023-04-24 16:04:10
轉載
1176 人瀏覽過

在 ChatGPT 走紅之後,很多關注科技的同學都在問一個問題:有沒有什麼學習資料可以讓我們有系統地了解 ChatGPT 背後的原理?由於 OpenAI 還沒有發布 ChatGPT 相關論文,這個問題變得棘手起來。

不過,從OpenAI 關於ChatGPT 的部落格我們知道,ChatGPT 用到的方法和它的兄弟模型——InstructGPT 一樣,只不過InstructGPT 是在GPT-3 上微調的,而ChatGPT 是基於GPT-3.5。在資料收集工作上,二者也存在一些差異。

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

#部落格連結:https://openai.com/blog/chatgpt/

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

InstructGPT 的論文發佈於2022 年3 月,不過OpenAI 早在1 月份就發布了相關部落格(參見《GPT-3 胡言亂語怎麼辦?OpenAI:我們重新調教了一下,新版本更“聽話””)。當時,OpenAI 明確提到,InstructGPT 利用了人類回饋的強化學習方法(RLHF)對 GPT-3 進行微調,使得該模型的輸出更加符合人類偏好,這點在 ChatGPT 的訓練中得到了延續。

論文連結:https://arxiv.org/pdf/2203.02155.pdf

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

#除此之外,InstructGPT 和ChatGPT 之間還有很多一脈相承之處。因此,吃透 InstructGPT 論文對於想要在 ChatGPT 方向上做些工作的同學來說將大有裨益。這也是我們力薦李沐這節精講課的原因。

課程網址:https://jmq.xet.tech/s/2lec6b  (點選「閱讀原文」可直達)

李沐博士是亞馬遜的資深首席科學家,之前和Aston Zhang 等人共同撰寫了《動手學習深度學習》。最近兩年,他一直透過影片向大家介紹各種 AI 知識,製作了數十篇論文的精讀課程。很多同學已經養成了跟著李沐精讀論文的習慣。

李沐博士在 B 站的帳號是「跟李沐學 AI」。

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

這節針對 InstructGPT 的解讀課程總共 67 分鐘,基本上按照論文撰寫的順序介紹。

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

看過ChatGPT 部落格的同學都知道,它的技術原理基本上用一張圖就能概括,這也是InstructGPT 論文中就已經出現的圖(二者有細微差別)。在解讀論文的摘要和引言部分時,李沐詳細介紹了圖上的三個步驟。

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

ChatGPT 部落格中的技術原理圖。

###InstructGPT 論文中的技術原理圖。 ###############在論文的第三章,InstructGPT 的作者首先介紹了他們的資料取得方法和流程,李沐也帶著大家詳細讀了一下。這部分在工程方面非常有價值。正如李沐所說,如果你之前沒有做過這樣的事情(數據標註等),需要找人幫你標數據,那麼你可以看它的附錄部分,裡面有很多模板可以直接拿來用,論文作者甚至描述了他們標註網站的UI 長什麼樣子,非常值得借鏡。 ######

接下來,李沐重點解讀了第三章寫到的3 個模型(見3.5 Models )-SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和RL (Reinforcement learning ) 模型,包括這些模型涉及的參數和目標函數等細節。

最後,李沐總結說,從技術上來講,InstructGPT 還是一個非常實用的技術。它告訴了大家一個方法:給定一個大型語言模型,你怎麼透過一些標註數據迅速地提升它在某一個你關心的領域中的性能,使它達到實用的程度。所以,它給想用生成模型做產品的人提供了一個可操作的想法。

當然,正如李沐博士所說,科研工作是循序漸進的,InstructGPT 也是建立在先前研究的基礎上,所以想要吃透ChatGPT 的同學不免還要回頭去讀更多論文。在先前的課程中,李沐也詳細解讀GPT、GPT-2、GPT-3 的論文:

快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術

##課程地址:https://jmq.xet.tech/s/2lec6b  

以上是快速學習InstructGPT論文的關鍵技術點:跟隨李沐掌握ChatGPT背後的技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板