AI的景觀正在迅速發展,語言模型,尤其是那些專為推理和解決問題的任務而設計的模型,是這項革命的核心。 AI中的一個突破是PHI-4,這是Microsoft Research開發的140億個參數模型。將PHI-4與前任和其他模型不同的是其創新的培訓方法,尤其是其使用合成數據。通過優先考慮數據質量而不是純數量,PHI-4表現出明顯的推理功能,以STEM為中心的問題答案和編碼任務。
在此博客中,我們將詳細探討PHI-4,分析其體系結構,培訓過程和培訓後創新的每個組成部分。我們將分解其關鍵優勢,討論改進領域,並解釋它如何勝過許多其他語言模型,即使大小更大。到這次深度潛水結束時,您將了解為什麼PHI-4不僅是另一個模型,而且還要在自然語言處理(NLP)領域的真正飛躍。
本文作為數據科學博客馬拉鬆的一部分發表。
PHI-4的核心是Microsoft Research開發的140億個參數語言模型。該模型基於PHI家族(例如PHI-3)以前迭代的成功,但引入了幾項關鍵創新,這些創新大大提高了其在繁重的任務上的表現。與許多其他大型語言模型(LLM)不同,這些模型主要依賴大量有機數據(例如Web內容,書籍和代碼存儲庫),PHI-4從戰略上納入了大量的合成數據。對合成數據的重點,結合其他培訓創新,使PHI-4可以在關鍵領域(尤其是與莖相關的問題答案和復雜的問題解決方案)實現更好的性能。
在AI社區中,數據是培訓模型的命脈。通常,使用從網絡上刮下來或從書籍和論文中策劃的大量數據集對LLM進行培訓。儘管這些有機數據很有用,但通常包含不一致的信息,無關的信息或缺乏結構性挑戰,這會推動模型的推理能力。這是合成數據的來源。
團隊人為地生成合成數據以滿足特定的培訓目標,使其成為指導模型學習過程的高效工具。對於PHI-4,合成數據有助於構建高質量的數據集,以鼓勵強大的推理和解決問題的能力。
PHI-4的合成數據不僅是隨機生成的 - 它是使用高級技術組合精心製作的:
通過優先考慮此類技術,PHI-4學會了更明智地解決問題,同時還可以減少純粹有機數據集可能引起的偏見。
PHI-4令人印象深刻的性能並非僅來自使用合成數據。該模型的培訓課程對於其成功也至關重要。 Phi-4的創建者設計了一個複雜的培訓過程,該過程結合了數據類型的平衡混合物,包括有機資源和合成數據。
PHI-4模型利用了一個僅解碼器的變壓器架構,具有140億個參數,最初以4096代幣的上下文長度運行。隨後的中期訓練階段,此上下文長度隨後增加到16K令牌。該體系結構與PHI-3中模型有許多相似之處,但引入了幾種增強功能。值得注意的是,Phi-4採用了Tiktoken代幣機,該代幣儀改善了多語言支持,並且詞彙大小為100,352個令牌,包括未使用的令牌。此外,PHI-4在4K上下文長度上充分關注,這與PHI-3中使用的2K滑動窗口方法背道而馳。
按照線性熱身和衰減時間表,該團隊使用大約10萬億代幣仔細考慮了該模型。他們將峰值學習率設置為0.0003,施加了0.1的恆定重量衰減,並使用了5760的全局批次大小。它們是通過從短效率運行中插值和應力測試學習率熱身階段來微調的超參數來確保模型穩定性的。預處理後,該模型經歷了一個短暫的中訓練階段,將原始4K上下文長度擴展到16K令牌。
由於預先訓練的模型通常在跟隨指導任務上表現不佳,因此研究人員選擇不依靠0次評估,例如簡單詞語,這些評估需要特定格式的答案。取而代之的是,他們開發了一種定制評估方法,該方法結合了日誌樣式評估和各種任務的射擊提示很少。例如,該團隊使用了MMLU(5-SHOT),MMLU-PRO和ARCC(1-SHOT)等任務的日誌評估。此外,他們使用1、3、4和8個幾次示例訓練了該模型,例如Triviaqa(TQA),MBPP,Math和GSM8K,幫助其遵循所需的答案格式並提取正確的解決方案。
在PHI-4的中期訓練階段,上下文長度從原始的4K令牌延伸到16K令牌。在此階段,研究人員進行了一系列消融研究,以研究不同類型的數據如何用長篇小說影響模型的性能。他們比較了自然具有較長上下文的數據源和合成數據,其中較短的序列被填充以創建更長的序列。結果表明,在對固有的長上下文的數據進行培訓時,模型的性能更好。
團隊通過篩選出高質量的非合成數據(例如學術論文,書籍和代碼)來完善其數據集。它們分離出大於8K令牌的樣品,並為16K代幣或更長時間提供更大的重量。新的合成數據集的序列比4K令牌更長。最終的數據集混合物包含30%的長篇下說數據,並從預處理中召回了70%的召回令牌。為了適應上下文長度的增加,團隊將旋轉位置編碼(繩索)基本頻率設置為250K。它們將最大學習率降低了10倍,並以2500億個令牌訓練模型。
為了評估PHI-4處理長篇小說的能力,研究人員強調了各種各樣的現實任務,而不是僅依靠諸如核對面的核心或統治者之類的合成基準,這些基準更簡單,但對實際場景的反射較少。團隊從頭盔[YGH 24]評估套件中選擇這些任務,並為每個類別的五個運行中的結果平均。
評估框架包括以下任務:
這種全面的評估策略徹底測試了PHI-4在各種實際任務中的長期文化功能。它反映了該模型的現實世界適用性。
培訓後旨在將驗證的語言模型轉換為用戶可以的AI助手
安全互動。 PHI-4與一輪SFT相結合,這是我們關鍵令牌搜索方法和一輪DPO的一輪DPOON數據,並在全長偏好對上進行一輪DPO。該模型使用標準CHATML格式進行聊天微調。兩輪對話的示例使用模板如下:
一旦預處理完成,PHI-4進入訓練後階段,進行進一步的微調。此階段著重於完善模型的推理能力並提高其產出質量。培訓後的幾項創新有助於PHI-4令人印象深刻的表現:
要評估PHI-4的功能,必須檢查其在標準基准上的性能。 PHI-4在幾個關鍵任務上始終優於其前身和許多較大的模型。
PHI-4特別在以STEM為中心的問題回答(例如用於研究生級問題的GPQA)和數學競賽(數學)。儘管比Llama-3之類的模型小,但PHI-4在這些重重的任務上取得了可比或優越的結果。這證明了該模型對合成數據的有效使用及其對結構化的邏輯問題解決的關注。
例如,儘管是一個較小的模型,但PHI-4在許多推理基準(例如GPQA和數學)上勝過其教師模型GPT-4。高質量合成數據和創新培訓技術的結合使PHI-4在這些領域中超過了更大模型的能力。
在編碼任務中,PHI-4還表現出色,超過了諸如GPT-4 Mini和Qwen 2.5之類的模型。無論是解決人類事件中的算法問題還是應對更複雜的編程挑戰,Phi-4有效推理和應用邏輯的能力都使其成為編碼領域中表現最好的人之一。
PHI-4證明了防止產生有害或有偏見的內容的強大保護措施,從而確保基準測試期間的道德和負責人的AI相互作用。
在本地運行PHI-4,您可以直接從系統中與此高級AI模型進行交互,從而為測試或應用程序開發提供便利性和靈活性。請按照以下步驟進行設置:
Ollama是一種工具,可促進與PHI-4這樣的AI模型運行和交互的工具。首先在系統上安裝Ollama。您可以在Ollama的官方網站上找到詳細的安裝說明。
安裝了Ollama後,您可以在終端或PowerShell中使用一個命令運行PHI-4模型:
Ollama運行Vanilj/phi-4
該命令初始化了PHI-4模型,並允許您直接在CLI中與它進行交互。您可以立即開始聊天或提出問題。
對於更高級的用例,例如將PHI-4集成到工作流程或應用程序中,您可以將Langchain與Ollama一起使用。 Langchain提供了以編程方式使用語言模型的工具。
%pip安裝-u langchain -ollama
來自langchain_core.prompts導入chatprompttemplate 來自langchain_ollama.llms導入ollamallm template =“”“問題:{問題} 答:讓我們逐步思考。”“” 提示= chatprompttemplate.from_template(模板) 型號= ollamallm(model =“ vanilj/phi-4”) 鏈=提示|模型 print(鏈。
沒有模型是完美的,PHI-4有自己的挑戰。過度擬合是人工智能發展中的一個普遍關注點。當模型變得太專業而無法訓練數據並損害概括時,就會發生這種情況。 PHI-4通過使用數據淨化過程來解決此問題。這樣可以確保在培訓中不包含測試數據,從而降低了過度擬合的風險。
通過使用新鮮的數據集,例如2024年11月AMC-10和AMC-12數學競賽,PHI-4表明,它可以概括其超出其培訓設置並在新任務上表現出色。這對於確保PHI-4仍然是現實世界應用的強大而可靠的工具至關重要。
PHI-4是語言模型世界中的遊戲規則改變者。它的創新合成數據生成,尖端訓練技術和培訓後的改進將其與許多其他模型區分開來。 PHI-4證明,通過正確的訓練方法,質量可以勝過數量 - 儘管比許多當代模型要小,但在重度任務,STEM Q&A和編碼挑戰方面取得了卓越的表現。
PHI-4並非沒有挑戰,尤其是在跟隨教學和事實準確性周圍。但是,它在邏輯推理和解決問題的能力方面的出色能力使其在AI領域邁出了重要的一步。隨著AI的發展,PHI-4對合成數據的使用設置了該領域未來發展的模型。它有助於推動語言模型可能的界限。
A. PHI-4是一種基於僅解碼器變壓器體系結構的大規模,最先進的AI模型。 PHI-4通過將上下文長度增加到16k代幣之類的模型構建。它還引入了改進的數據預處理技術,包括Tiktoken,以提供更好的多語言支持。
Q2。為什麼合成數據對於培訓PHI-4很重要?答:綜合數據在訓練PHI-4中起關鍵作用,因為它可以幫助模型更有效地處理長篇小說任務。通過將現實世界數據與合成生成的序列相結合,PHI-4可以在各種情況下更好地概括。這提高了其在需要大型數據集中推理的任務上的性能。
Q3。 PHI-4培訓過程的關鍵階段是什麼?A. PHI-4的培訓涉及三個階段。預處理使用多種數據源。中期培訓將上下文長度從4K將其擴展到16K令牌。訓練後包括從訓練階段的微調技術,諸如SFT,使用DPO的加固學習以及令牌採樣(PTS)。
Q4。 PHI-4如何在現實世界任務上執行?A. PHI-4在各種現實世界的基准上都擅長,包括問答,摘要和檢索效果的一代。 PHI-4在推理任務上超過了冗長的文檔,並使用Helm評估套件中的不同數據集進行了評估。
本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。
以上是PHI-4:使用合成數據重新定義語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!