揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化-人工智慧-PHP中文網

在2024 年全球開發者大會上，蘋果重磅推出了Apple Intelligence，這是一個全新的個性化智能係統，可以提供實用的智能服務，覆蓋iPhone、iPad 和Mac，並深度集成在iOS 18、 iPadOS 18 和macOS Sequoia 中。

庫克曾經表示，Apple Intelligence 是蘋果創新的新篇章，將改變用戶使用產品的方式。他強調，蘋果獨特的方法結合了生成式人工智慧和使用者的個人訊息，能提供真正有用的智慧服務。此外，Apple Intelligence 能夠以完全私密和安全的方式存取訊息，幫助用戶完成對他們最重要的事情。這是蘋果獨有的 AI 體驗。

如今，距離 Apple Intelligence 官方宣布一個多月過去了，這項技術終於落地智慧型設備，相關技術文件也終於放出。

在剛剛過去的一天，擁有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用戶可以下載 iOS 18.1 開發測試版，並且可以體驗 Apple Intelligence 的功能了。

隨著這篇長達 47 頁技術報告的出爐，我們可以更深入的了解 Apple Intelligence 背後的秘密武器。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化

報地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

代表Apple Foundation Model，是一個約30 億參數的語言模型，以及一個更大的基於伺服器的語言模型

AFM-server，可以高效、準確和負責地執行專門的任務（圖1）。 這兩個基礎模型作為蘋果更大的生成模型系列的一部分存在。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化架構及訓練

AFM 基礎模型是基於Transformer 架構構建的密集解碼器模型，採用如下設計：AFM 基礎模型是基於Transformer 架構構建的密集解碼器模型，採用如下設計：矩陣
用於參數的記憶體使用。

使用 RMSNorm 進行預歸一化以提高訓練穩定性。

查詢 / 鍵歸一化以提高訓練穩定性。
具有 8 個鍵值頭的分組查詢注意力（GQA），以減少 KV 快取記憶體佔用。
SwiGLU 激活，以提高效率。
RoPE 位置嵌入，基頻（base frequency）設定為 500k，以支援長上下文。
AFM 預訓練過程在開發高效能語言模型，以支援一系列 Apple Intelligence 功能方面發揮關鍵作用。研究團隊著重效率和數據質量，以獲得高品質的端到端用戶體驗。
在後訓練方面，研究團隊發現改進通用後訓練可以提升 Apple Intelligence 所有功能的效能，因為模型在遵循指令、推理和寫作方面會具有更強的能力。

為了確保這些模型功能符合蘋果對保護用戶隱私的承諾，以及蘋果的 Responsible AI 原則，後訓練工作包括一系列資料收集和生成、指令調整和對齊創新。後訓練過程包含兩個階段：監督微調（SFT）和來自人類回饋的強化學習（RLHF）。研究團隊提出了兩種新的後訓練演算法：（1）帶有teacher committee（iTeC）的拒絕採樣微調演算法，以及（2）一種用於強化學習迭代的RLHF 演算法，帶有鏡像下降策略優化（ mirror descent policy optimization）和留一法優勢估計器（leave-one-out advantage estimator）（MDLOO），使得模型品質顯著提高。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化

Apple Intelligence特性

基礎模型是為 Apple Intelligence 專門設計的，這是一個支援 iPhone、iPad 和 Mac 的個人智慧系統。

蘋果發現，針對特定任務的微調，他們可以將小模型的性能提升到一流水平，除此以外，他們還開發了一種基於運行時可交換適配器（runtime-swappable adapters）的架構，使單一基礎模型能夠專門用於數十個此類任務。圖 2 顯示了進階概述。

適配器架構

蘋果使用 LoRA 適配器來針對特定任務進行模型微調。對於每項任務，研究者會調整 AFM 自註意力層中的所有線性投影矩陣以及逐點前饋網路中的全連接層。僅透過微調適配器，基礎預訓練模型的原始參數保持不變，可以保留模型的一般知識，同時自訂適配器以支援特定任務。

量化

為了將 AFM 納入內存預算有限的邊緣設備並降低推理成本，需要考慮量化技術。先前的研究發現，與原始的 32/16 位元浮點相比，經過 4 位元量化的模型損失會很小。

為了在模型容量和推理性能之間實現最佳平衡，蘋果開發了最先進的量化方法和利用準確率 - 恢復適配器（accuracy-recovery adapters）的框架。使得模型在每個權重平均小於 4 位的情況下，還能實現近乎無損的量化，並提供靈活的量化方案選擇。

方法

經過後訓練，模型被壓縮量化，得到平均低於 4 位的權重。量化模型通常表現出中等程度的品質損失。因此，蘋果不會將量化後的模型直接用於功能開發，而是附加一組參數高效的 LoRA 適配器以進行品質恢復。

值得注意的是，訓練準確率 - 恢復適配器具有樣本效率，可以看作是訓練基礎模型的迷你版本。在適配器的預訓練階段，只需要大約 100 億個 token（約佔基礎模型訓練的 0.15%）即可完全恢復量化模型的能力。

由於應用程式適配器將從這些準確率 - 恢復適配器微調而來，因此它們不會產生任何額外的記憶體使用或推理成本。關於適配器大小，蘋果發現適配器秩為 16 時提供了模型容量和推理性能之間的最佳權衡。

但是，為了靈活性，蘋果提供了一套具有不同秩 {8、16、32} 的準確率 - 恢復適配器供應用程序團隊選擇。

混合精度量化

AFM 中的每個 transformer 區塊和每個層都存在殘差連接。因此，所有層都具有同等重要性的可能性不大。根據這個直覺，蘋果透過推動某些層使用 2 位元量化（預設為 4 位元）來進一步減少記憶體使用量。平均而言，AFM-on-device 可以壓縮到每個權重僅約 3.5 位元 (bpw)，而不會造成顯著的質量損失。

評估

研究團隊使用常見的開源評估工具和基準來評估 AFM 預訓練模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的結果。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化

這些基準測試表明，AFM 預訓練模型具有強大的語言和推理能力，為後訓練和特徵微調提供了堅實的基礎。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化

AFM 與開源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商業模型（GPT3.5 和GPT-4）的比較結果如下圖。 3所示。與其他模型相比，AFM 模型更受人類評估人員的青睞。特別是，AFM-on-device 與 Phi-3-mini 相比，儘管模型規模小了 25%，但仍獲得了 47.7% 的勝率，甚至優於開源強基線 Gemma-7B 和 Mistral-7B。

揭秘！ 47頁文件拆解蘋果智能，從架構、資料到訓練與最佳化