首頁 > 科技週邊 > 人工智慧 > LLM的工作方式:培訓前訓練,神經網絡,幻覺和推理

LLM的工作方式:培訓前訓練,神經網絡,幻覺和推理

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
發布: 2025-02-26 03:58:14
原創
511 人瀏覽過

揭示大語模型(LLMS)背後的魔力:兩部分探索

大型語言模型(LLM)通常看起來很神奇,但它們的內部運作令人驚訝地系統性。這個兩部分的系列揭示了LLM,並將其構建,培訓和精煉解釋為我們今天使用的AI系統。 受Andrej Karpathy的洞察力(和冗長!)YouTube視頻的啟發,該冷凝版以更容易訪問的格式提供了核心概念。強烈建議您使用Karpathy的視頻(僅10天內觀看800,000次!),但此10分鐘的讀取蒸發是最初1.5小時的關鍵要點。

>

第1部分:從原始數據到基本模型> LLM發育涉及兩個關鍵階段:訓練前和訓練後。

1。預訓練:教語言

> 在生成文本之前,LLM必須學習語言結構。這個計算密集的預訓練過程涉及多個步驟:

數據採集和預處理:
    大量,多樣化的數據集,通常包括諸如Common Crawl(2500億個網頁)之類的來源。 但是,原始數據需要清潔以刪除垃圾郵件,重複和低質量的內容。 諸如FineWeb之類的服務提供了擁抱臉上可用的預處理版本。
  • >

How LLMs Work: Pre-Training to Post-Training, Neural Networks, Hallucinations, and Inference

tokenization:文本轉換為用於神經網絡處理的數值令牌(單詞,子字或字符)。 例如,GPT-4使用100,277個獨特的代幣。 tiktokenizer之類的工具可視化此過程。

>How LLMs Work: Pre-Training to Post-Training, Neural Networks, Hallucinations, and Inference神經網絡培訓:神經網絡學會根據上下文預測下一步的令牌。 這涉及數十億個迭代,通過反向傳播調整參數(權重)以提高預測準確性。網絡的體系結構決定瞭如何處理輸入令牌以生成輸出。 >

  • 最終的基本模型
  • 了解單詞關係和統計模式,但缺乏現實世界的任務優化。 它的功能像高級自動完成,根據概率進行預測,但具有有限的指令跟隨功能。可以採用提示中的示例中的文章學習,但需要進一步的培訓。

2。訓練後:用於實際用途的精煉通過使用較小的專業數據集進行培訓,可以完善基礎模型。 這不是明確的編程,而是通過結構化的示例進行隱式指令。

>

訓練後方法包括:

    >
  • 指導/對話微調:>教會模型遵循說明,進行對話,遵守安全指南並拒絕有害要求(例如,指令gpt)。
  • >
  • >>域特異性微調:適應特定領域的模型(醫學,法律,編程)。
  • 特殊令牌被引入以劃定用戶輸入和AI響應。
>

推斷:生成文本

在任何階段執行的推論,評估模型學習。 該模型將概率分配給潛在的代幣和此分佈的樣本,從而在培訓數據中明確地創建文本,但在統計學上與之一致。此隨機過程允許從同一輸入中產生各種輸出。 >

>幻覺:解決虛假信息

> LLMS產生虛假信息的幻覺源於其概率性質。 他們不“知道”事實,而是預測可能的單詞序列。 緩解策略包括:

“我不知道”培訓:
    明確訓練模型,以通過自我介入和自動化問題產生來識別知識差距。 >
  • Web搜索集成:通過訪問外部搜索工具來擴展知識,將結果納入模型的上下文窗口。
  • 通過模糊的回憶(來自預訓練的模式)和工作記憶(上下文窗口中的信息),llms訪問知識。 系統提示可以建立一致的模型身份。
結論(第1部分)

>本部分探索了LLM開發的基本方面。第2部分將深入研究並檢查尖端模型。 歡迎您的問題和建議!

以上是LLM的工作方式:培訓前訓練,神經網絡,幻覺和推理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板