首頁 > 科技週邊 > 人工智慧 > PHI-4:使用合成數據重新定義語言模型

PHI-4:使用合成數據重新定義語言模型

尊渡假赌尊渡假赌尊渡假赌
發布: 2025-03-14 09:27:10
原創
478 人瀏覽過

AI的景觀正在迅速發展,語言模型,尤其是那些專為推理和解決問題的任務而設計的模型,是這項革命的核心。 AI中的一個突破是PHI-4,這是Microsoft Research開發的140億個參數模型。將PHI-4與前任和其他模型不同的是其創新的培訓方法,尤其是其使用合成數據。通過優先考慮數據質量而不是純數量,PHI-4表現出明顯的推理功能,以STEM為中心的問題答案和編碼任務。

在此博客中,我們將詳細探討PHI-4,分析其體系結構,培訓過程和培訓後創新的每個組成部分。我們將分解其關鍵優勢,討論改進領域,並解釋它如何勝過許多其他語言模型,即使大小更大。到這次深度潛水結束時,您將了解為什麼PHI-4不僅是另一個模型,而且還要在自然語言處理(NLP)領域的真正飛躍。

學習目標

  • 了解為什麼合成數據對於PHI-4的開發以及它如何提高長篇文本任務中的性能至關重要。
  • 了解團隊如何在三個培訓階段使用各種數據源(包括合成和非合成數據)訓練PHI-4。
  • 發現PHI-4的上下文長度如何在中期訓練中從4K增加到16K令牌及其對性能的影響。
  • 請參閱PHI-4如何對現實世界任務進行評估,例如回答,摘要和檢索演出的生成,並比較其性能。
  • 獲取有關本地運行PHI-4的指南,涵蓋技術設置,系統要求以及諸如過度擬合和數據污染之類的挑戰。

本文作為數據科學博客馬拉鬆的一部分發表

目錄

  • 為什麼合成數據很重要?
  • 為什麼合成數據是PHI-4的關鍵?
  • PHI-4如何受到訓練?
  • 中期培訓階段的見解
  • 訓練後的結果和反思
  • 在關鍵基准上的性能
  • 如何在本地運行PHI-4
  • 挑戰:處理過度擬合和數據污染
  • 結論
  • 常見問題

為什麼合成數據很重要?

PHI-4的核心是Microsoft Research開發的140億個參數語言模型。該模型基於PHI家族(例如PHI-3)以前迭代的成功,但引入了幾項關鍵創新,這些創新大大提高了其在繁重的任務上的表現。與許多其他大型語言模型(LLM)不同,這些模型主要依賴大量有機數據(例如Web內容,書籍和代碼存儲庫),PHI-4從戰略上納入了大量的合成數據。對合成數據的重點,結合其他培訓創新,使PHI-4可以在關鍵領域(尤其是與莖相關的問題答案和復雜的問題解決方案)實現更好的性能。

為什麼合成數據是PHI-4的關鍵?

在AI社區中,數據是培訓模型的命脈。通常,使用從網絡上刮下來或從書籍和論文中策劃的大量數據集對LLM進行培訓。儘管這些有機數據很有用,但通常包含不一致的信息,無關的信息或缺乏結構性挑戰,這會推動模型的推理能力。這是合成數據的來源。

合成數據在PHI-4中的作用

團隊人為地生成合成數據以滿足特定的培訓目標,使其成為指導模型學習過程的高效工具。對於PHI-4,合成數據有助於構建高質量的數據集,以鼓勵強大的推理和解決問題的能力。

  • 結構化學習:與有機數據不同,有機數據通常需要模型來破譯複合物,在代幣之間間接關係,合成數據使PHI-4可以系統地學習。例如,在數學或編碼任務中,合成數據提供了清晰的分步推理,使模型更容易遵循邏輯進度。
  • 挑戰的多樣性:可以生成綜合數據以涵蓋廣泛的主題和技能,從而確保模型遇到各種挑戰。例如,PHI-4的合成數據集包括複雜的數學問題,編碼挑戰和科學推理任務,旨在擴展模型的認知能力。
  • 與推理上下文的一致性:合成數據的一個關鍵優勢是,它可以以與模型在現實世界中的相互作用期間與該模型的類型緊密相一致的格式生成。這有助於PHI-4生成上下文適當且與用戶查詢更加一致的響應。

PHI-4中的合成數據技術

PHI-4的合成數據不僅是隨機生成的 - 它是使用高級技術組合精心製作的:

  • 多代理提示:多個代理(模型)生成了相同問題的不同解決方案,然後將其過濾以質量和一致性。這會產生各種各樣的細微示例,以挑戰該模型解決問題的能力。
  • 自我糾正工作流程:該模型最初產生答案,然後通過迭代反饋循環進行批評和完善它們。這有助於提高生成的響應中的準確性和推理。
  • 指令逆轉:對於編碼任務,PHI-4使用指令逆轉技術。它將現有代碼片段轉換為問題描述,幫助模型有效地生成解決方案。

通過優先考慮此類技術,PHI-4學會了更明智地解決問題,同時還可以減少純粹有機數據集可能引起的偏見。

PHI-4如何受到訓練?

PHI-4令人印象深刻的性能並非僅來自使用合成數據。該模型的培訓課程對於其成功也至關重要。 Phi-4的創建者設計了一個複雜的培訓過程,該過程結合了數據類型的平衡混合物,包括有機資源和合成數據。

用數據源進行預處理

PHI-4模型利用了一個僅解碼器的變壓器架構,具有140億個參數,最初以4096代幣的上下文長度運行。隨後的中期訓練階段,此上下文長度隨後增加到16K令牌。該體系結構與PHI-3中模型有許多相似之處,但引入了幾種增強功能。值得注意的是,Phi-4採用了Tiktoken代幣機,該代幣儀改善了多語言支持,並且詞彙大小為100,352個令牌,包括未使用的令牌。此外,PHI-4在4K上下文長度上充分關注,這與PHI-3中使用的2K滑動窗口方法背道而馳。

按照線性熱身和衰減時間表,該團隊使用大約10萬億代幣仔細考慮了該模型。他們將峰值學習率設置為0.0003,施加了0.1的恆定重量衰減,並使用了5760的全局批次大小。它們是通過從短效率運行中插值和應力測試學習率熱身階段來微調的超參數來確保模型穩定性的。預處理後,該模型經歷了一個短暫的中訓練階段,將原始4K上下文長度擴展到16K令牌。

由於預先訓練的模型通常在跟隨指導任務上表現不佳,因此研究人員選擇不依靠0次評估,例如簡單詞語,這些評估需要特定格式的答案。取而代之的是,他們開發了一種定制評估方法,該方法結合了日誌樣式評估和各種任務的射擊提示很少。例如,該團隊使用了MMLU(5-SHOT),MMLU-PRO和ARCC(1-SHOT)等任務的日誌評估。此外,他們使用1、3、4和8個幾次示例訓練了該模型,例如Triviaqa(TQA),MBPP,Math和GSM8K,幫助其遵循所需的答案格式並提取正確的解決方案。

中期培訓階段的見解

在PHI-4的中期訓練階段,上下文長度從原始的4K令牌延伸到16K令牌。在此階段,研究人員進行了一系列消融研究,以研究不同類型的數據如何用長篇小說影響模型的性能。他們比較了自然具有較長上下文的數據源和合成數據,其中較短的序列被填充以創建更長的序列。結果表明,在對固有的長上下文的數據進行培訓時,模型的性能更好。

團隊通過篩選出高質量的非合成數據(例如學術論文,書籍和代碼)來完善其數據集。它們分離出大於8K令牌的樣品,並為16K代幣或更長時間提供更大的重量。新的合成數據集的序列比4K令牌更長。最終的數據集混合物包含30%的長篇下說數據,並從預處理中召回了70%的召回令牌。為了適應上下文長度的增加,團隊將旋轉位置編碼(繩索)基本頻率設置為250K。它們將最大學習率降低了10倍,並以2500億個令牌訓練模型。

為了評估PHI-4處理長篇小說的能力,研究人員強調了各種各樣的現實任務,而不是僅依靠諸如核對面的核心或統治者之類的合成基準,這些基準更簡單,但對實際場景的反射較少。團隊從頭盔[YGH 24]評估套件中選擇這些任務,並為每個類別的五個運行中的結果平均。

評估框架

評估框架包括以下任務:

  • 回想:該模型根據給定鍵從隨機生成的長JSON文件中檢索特定值,該鍵使用SUBEM Metric測量。
  • 抹布(檢索效果的一代):模型根據多個檢索和洗牌的Wikipedia文檔回答問題,並帶有hosterquestions,hotpotqa和popqa等數據集。最終結果在所有數據集中取平均值,並通過Subem度量進行評估。
  • 重新升級:在此任務中,該模型使用MSMARCO數據集對給定查詢檢索的前10個文檔進行了重新升級。用NDCG@10測量性能。
  • ICL(在文章中學習):此任務測試該模型在TREC COLACH,TREC FINE,BANKING77,NLU和CLINC150等數據集上執行許多鏡頭中的學習能力。結果在所有數據集中取平均值,並由F1分數衡量性能。
  • QA(問題回答):該模型根據敘事Qav2數據集的冗長文檔回答問題,並使用GPT-4O評分評估了性能。
  • 總結(摘要):任務涉及匯總多英文數據集中的長期法律文檔,並使用GPT-4O評分評估結果。

這種全面的評估策略徹底測試了PHI-4在各種實際任務中的長期文化功能。它反映了該模型的現實世界適用性。

訓練後的結果和反思

培訓後旨在將驗證的語言模型轉換為用戶可以的AI助手
安全互動。 PHI-4與一輪SFT相結合,這是我們關鍵令牌搜索方法和一輪DPO的一輪DPOON數據,並在全長偏好對上進行一輪DPO。該模型使用標準CHATML格式進行聊天微調。兩輪對話的示例使用模板如下:

PHI-4:使用合成數據重新定義語言模型

創新的訓練後技術

一旦預處理完成,PHI-4進入訓練後階段,進行進一步的微調。此階段著重於完善模型的推理能力並提高其產出質量。培訓後的幾項創新有助於PHI-4令人印象深刻的表現:

  • 受監督的微調:研究人員在驗證的模型中以10 −6onavarietyofdatagener的學習率從各種領域的高質量數據中獲得的學習率,包括數學,編碼,推理,推理,對話,模型身份和安全性。這些語言還添加了40種語言的數據。這些添加了多種語言。
  • 直接偏好優化:研究人員使用DPO將模型與人類偏好保持一致,並通過成對的所需和不希望的輸出將模型從不必要的行為中轉移出來。 DPO數據涵蓋聊天格式數據,推理和負責人AI(RAI)數據,並改善數學,編碼,推理,魯棒性和安全性的模型。他們在SFT模型上進行了兩輪DPO。
  • Pivotal令牌搜索(PTS):一種針對PHI-4開發的新技術,PTS在響應中識別了對模型輸出的整體成功產生重大影響的響應中的關鍵令牌。這使該模型可以專注於改進其響應中的特定,關鍵令牌,從而確保更高的準確性和魯棒性。

PHI-4:使用合成數據重新定義語言模型

在關鍵基准上的性能

要評估PHI-4的功能,必須檢查其在標準基准上的性能。 PHI-4在幾個關鍵任務上始終優於其前身和許多較大的模型。

PHI-4:使用合成數據重新定義語言模型

莖和推理任務

PHI-4特別在以STEM為中心的問題回答(例如用於研究生級問題的GPQA)和數學競賽(數學)。儘管比Llama-3之類的模型小,但PHI-4在這些重重的任務上取得了可比或優越的結果。這證明了該模型對合成數據的有效使用及其對結構化的邏輯問題解決的關注。

例如,儘管是一個較小的模型,但PHI-4在許多推理基準(例如GPQA和數學)上勝過其教師模型GPT-4。高質量合成數據和創新培訓技術的結合使PHI-4在這些領域中超過了更大模型的能力。

編碼和技術任務

在編碼任務中,PHI-4還表現出色,超過了諸如GPT-4 Mini和Qwen 2.5之類的模型。無論是解決人類事件中的算法問題還是應對更複雜的編程挑戰,Phi-4有效推理和應用邏輯的能力都使其成為編碼領域中表現最好的人之一。

安全

PHI-4證明了防止產生有害或有偏見的內容的強大保護措施,從而確保基準測試期間的道德和負責人的AI相互作用。

PHI-4:使用合成數據重新定義語言模型

如何在本地運行PHI-4

在本地運行PHI-4,您可以直接從系統中與此高級AI模型進行交互,從而為測試或應用程序開發提供便利性和靈活性。請按照以下步驟進行設置:

安裝Ollama

Ollama是一種工具,可促進與PHI-4這樣的AI模型運行和交互的工具。首先在系統上安裝Ollama。您可以在Ollama的官方網站上找到詳細的安裝說明。

在命令行中運行PHI-4

安裝了Ollama後,您可以在終端或PowerShell中使用一個命令運行PHI-4模型:

 Ollama運行Vanilj/phi-4
登入後複製

該命令初始化了PHI-4模型,並允許您直接在CLI中與它進行交互。您可以立即開始聊天或提出問題。

將PHI-4與蘭班鏈整合

對於更高級的用例,例如將PHI-4集成到工作流程或應用程序中,您可以將Langchain與Ollama一起使用。 Langchain提供了以編程方式使用語言模型的工具。

  • 安裝Langchain-Collama庫:
 %pip安裝-u langchain -ollama
登入後複製
  • 使用以下Python腳本通過Langchain運行PHI-4:
來自langchain_core.prompts導入chatprompttemplate
來自langchain_ollama.llms導入ollamallm
template =“”“問題:{問題}
答:讓我們逐步思考。”“”
提示= chatprompttemplate.from_template(模板)
型號= ollamallm(model =“ vanilj/phi-4”)
鏈=提示|模型
print(鏈。
登入後複製

PHI-4:使用合成數據重新定義語言模型

挑戰:處理過度擬合和數據污染

沒有模型是完美的,PHI-4有自己的挑戰。過度擬合是人工智能發展中的一個普遍關注點。當模型變得太專業而無法訓練數據並損害概括時,就會發生這種情況。 PHI-4通過使用數據淨化過程來解決此問題。這樣可以確保在培訓中不包含測試數據,從而降低了過度擬合的風險。

緩解過度擬合

通過使用新鮮的數據集,例如2024年11月AMC-10和AMC-12數學競賽,PHI-4表明,它可以概括其超出其培訓設置並在新任務上表現出色。這對於確保PHI-4仍然是現實世界應用的強大而可靠的工具至關重要。

弱點

  • 指令以下:雖然PHI-4在推理任務方面表現良好,但它在嚴格的指導遵循方面掙扎。需要特定格式或複雜的風格說明的任務有時會導致模型偏離路線。
  • 事實幻覺:在某些情況下,PHI-4仍然在事實準確性上掙扎,尤其是在生成有關不存在或假設個體的信息時。

結論

PHI-4是語言模型世界中的遊戲規則改變者。它的創新合成數據生成,尖端訓練技術和培訓後的改進將其與許多其他模型區分開來。 PHI-4證明,通過正確的訓練方法,質量可以勝過數量 - 儘管比許多當代模型要小,但在重度任務,STEM Q&A和編碼挑戰方面取得了卓越的表現。

PHI-4並非沒有挑戰,尤其是在跟隨教學和事實準確性周圍。但是,它在邏輯推理和解決問題的能力方面的出色能力使其在AI領域邁出了重要的一步。隨著AI的發展,PHI-4對合成數據的使用設置了該領域未來發展的模型。它有助於推動語言模型可能的界限。

關鍵要點

  • PHI-4利用合成數據將質量優先於數量,增強其推理,STEM問答和編碼功能。
  • PHI-4中的合成數據引入了結構化學習,各種挑戰以及與現實推理環境的更好對齊。
  • PHI-4的培訓包括預訓練,進行延長的上下文長度的中期培訓以及用於微調的創新後培訓技術。
  • 中期訓練將PHI-4的上下文長度從4K將其擴展到16k代幣,從而優化了長篇小說任務。
  • 對PHI-4的評估強調了現實世界的任務,例如抹布,摘要和對實用見解的內在學習。
  • 培訓後的創新,包括監督微調和直接偏好優化,完善PHI-4的推理和安全性。
  • PHI-4的體系結構以及高級數據集和培訓技術,在NLP中為處理複雜的解決問題的任務設定了新的基準。

常見問題

Q1。什麼是PHI-4,與以前的模型有何不同?

A. PHI-4是一種基於僅解碼器變壓器體系結構的大規模,最先進的AI模型。 PHI-4通過將上下文長度增加到16k代幣之類的模型構建。它還引入了改進的數據預處理技術,包括Tiktoken,以提供更好的多語言支持。

Q2。為什麼合成數據對於培訓PHI-4很重要?

答:綜合數據在訓練PHI-4中起關鍵作用,因為它可以幫助模型更有效地處理長篇小說任務。通過將現實世界數據與合成生成的序列相結合,PHI-4可以在各種情況下更好地概括。這提高了其在需要大型數據集中推理的任務上的性能。

Q3。 PHI-4培訓過程的關鍵階段是什麼?

A. PHI-4的培訓涉及三個階段。預處理使用多種數據源。中期培訓將上下文長度從4K將其擴展到16K令牌。訓練後包括從訓練階段的微調技術,諸如SFT,使用DPO的加固學習以及令牌採樣(PTS)。

Q4。 PHI-4如何在現實世界任務上執行?

A. PHI-4在各種現實世界的基准上都擅長,包括問答,摘要和檢索效果的一代。 PHI-4在推理任務上超過了冗長的文檔,並使用Helm評估套件中的不同數據集進行了評估。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是PHI-4:使用合成數據重新定義語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板