>本文探討了OpenAI GPT模型的演變,重點是GPT-2和GPT-3。 這些模型代表了大型語言模型(LLM)培訓方法的重大轉變,從傳統的“預訓練以及微調”範式轉向“僅預訓練”方法。
第1部分:範式移位及其啟用器
微調的局限性,尤其是對於各種看不見的NLP任務,促使朝著任務不合時宜的學習邁進。小型數據集上的大型模型風險過度擬合和泛化。 在沒有大規模監督數據集的情況下學習語言任務的人類能力進一步支持了這一轉變。
三個關鍵元素促進了此範式偏移:
>
>
第2部分:gpt-2 - 墊腳石
>
GPT-2建立在GPT-1的架構上,具有多種改進:修改後的分層放置,殘留層的重量縮放,擴展的詞彙(50257)(50257),增加上下文大小(1024個令牌)和較大的批量尺寸(512)。 四個模型接受了參數計數的訓練,範圍為1.17億至1.5B。 培訓數據集(WebText)約為4500萬鏈接。雖然GPT-2顯示出令人鼓舞的結果,尤其是在語言建模中,但它落後於最新的模型,例如閱讀理解和翻譯等任務。
>
第3部分:GPT-3 - 飛躍向前
>GPT-3評估中的關鍵發現
表明了規模假設和內在學習的有效性。 性能通過增加的計算平穩縮放,較大的模型在零射擊,一擊和很少的學習設置中表現出卓越的性能。
第4部分:結論
GPT-2和GPT-3代表了LLM開發方面的重大進步,為未來研究的新興能力,培訓範式,數據清潔和道德考慮鋪平了道路。 他們的成功凸顯了任務不合時宜的學習的潛力以及擴大模型大小和培訓數據的力量。 這項研究繼續影響後續模型的發展,例如gpt-3.5和指令。。
有關本系列相關文章的信息,請參見:第1部分:了解Chatgpt的演變:第1部分 - 對GPT-1的深入研究以及啟發了它的原因。
以上是了解chatgpt的演變:第2部分– GPT-2和GPT-3的詳細內容。更多資訊請關注PHP中文網其他相關文章!