首頁 > 科技週邊 > 人工智慧 > 了解chatgpt的演變:第2部分– GPT-2和GPT-3

了解chatgpt的演變:第2部分– GPT-2和GPT-3

PHPz
發布: 2025-02-25 21:02:11
原創
702 人瀏覽過

>本文探討了OpenAI GPT模型的演變,重點是GPT-2和GPT-3。 這些模型代表了大型語言模型(LLM)培訓方法的重大轉變,從傳統的“預訓練以及微調”範式轉向“僅預訓練”方法。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

這一轉變是由GPT-1的零射擊功能的觀察到的 - 執行未經專門培訓的任務的能力。 為了更好地理解這一點,讓我們深入研究關鍵概念:

第1部分:範式移位及其啟用器

微調的局限性,尤其是對於各種看不見的NLP任務,促使朝著任務不合時宜的學習邁進。小型數據集上的大型模型風險過度擬合和泛化。 在沒有大規模監督數據集的情況下學習語言任務的人類能力進一步支持了這一轉變。

三個關鍵元素促進了此範式偏移:

  • 任務 - 靜態學習(元學習):這種方法在訓練過程中為模型提供了廣泛的技能,從而使其能夠迅速適應新任務而無需進一步的微調。 模型 - 敏捷的元學習(MAML)例證了這個概念。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

  • 量表假設:該假設表明,在較大數據集上訓練的較大模型表現出緊急的功能- 隨著模型大小和數據的增加而出乎意料地出現的能力。 GPT-2和GPT-3作為測試的實驗。

    >

  • 在文章中學習:該技術涉及在推理時間為模型提供自然語言指令和一些示例(演示),從而使其可以從這些示例中學習任務而無需梯度更新。 零射擊,一聲和少數學習代表不同級別的示例提供。

    >

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3第2部分:gpt-2 - 墊腳石

>

GPT-2建立在GPT-1的架構上,具有多種改進:修改後的分層放置,殘留層的重量縮放,擴展的詞彙(50257)(50257),增加上下文大小(1024個令牌)和較大的批量尺寸(512)。 四個模型接受了參數計數的訓練,範圍為1.17億至1.5B。 培訓數據集(WebText)約為4500萬鏈接。雖然GPT-2顯示出令人鼓舞的結果,尤其是在語言建模中,但它落後於最新的模型,例如閱讀理解和翻譯等任務。

>

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

第3部分:GPT-3 - 飛躍向前

> gpt-3保留了與GPT-2相似的結構,主要在使用交替緻密和稀疏的注意力模式方面有所不同。訓練了八個型號,範圍從12500萬到175b參數。 培訓數據明顯更大,更多樣化,基於質量的仔細策劃和數據集的加權。

GPT-3評估中的關鍵發現

表明了規模假設和內在學習的有效性。 性能通過增加的計算平穩縮放,較大的模型在零射擊,一擊和很少的學習設置中表現出卓越的性能。

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

第4部分:結論

GPT-2和GPT-3代表了LLM開發方面的重大進步,為未來研究的新興能力,培訓範式,數據清潔和道德考慮鋪平了道路。 他們的成功凸顯了任務不合時宜的學習的潛力以及擴大模型大小和培訓數據的力量。 這項研究繼續影響後續模型的發展,例如gpt-3.5和指令。

有關本系列相關文章的信息,請參見:

第1部分:了解Chatgpt的演變:第1部分 - 對GPT-1的深入研究以及啟發了它的原因。
    >
  • 第3部分:codex和consendgpt的洞察力

以上是了解chatgpt的演變:第2部分– GPT-2和GPT-3的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板