明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書-AI-php.cn

2024 Worldwide Developers Conference で、Apple は、iPhone、iPad、Mac をカバーする実用的なインテリジェントサービスを提供できる新しいパーソナライズされたインテリジェントシステムである Apple Intelligence を発表しました。これは、iOS 18、iPadOS 18、および macOS Sequoia に深く統合されています。

クック氏はかつて、Apple Intelligence は Apple のイノベーションの新たな章であり、ユーザーの製品の使用方法を変えるだろうと述べました。同氏は、Appleの独自のアプローチが生成人工知能とユーザーの個人情報を組み合わせて、真に有用なインテリジェントサービスを提供していると強調した。さらに、Apple Intelligence は情報への完全にプライベートで安全なアクセスを提供し、ユーザーが自分にとって最も重要なことを達成できるように支援します。これはAppleならではのAI体験です。

さて、Apple Intelligenceの正式発表から1ヶ月以上が経過し、ついにこの技術がスマートデバイスに実装され、関連する技術文書がついに公開されました。

過去 1 日で、iPhone 15 Pro または iPhone 15 Pro Max を所有するユーザーは、iOS 18.1 開発ベータ版をダウンロードして、Apple Intelligence の機能を体験できるようになりました。

この 47 ページの技術レポートのリリースにより、Apple Intelligence の背後にある秘密兵器についてより深く理解できるようになります。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

レポートアドレス: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lang_models.pdf

レポートでは、2 つのモデル - AFM-on-device、AFM の略称について詳しく説明します。約 30 億のパラメータを持つ言語モデルである Apple Foundation Model と、特殊なタスクを効率的、正確かつ責任を持って実行できる、より大規模なサーバーベースの言語モデル AFM サーバー (図 1)。

これら 2 つの基本モデルは、Apple のより大きな生成モデルファミリの一部として存在します。 Architecture andTraining

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

AFM基本モデルは、次の設計を備えたトランスアーキテクチャ上に構築された密なデコーダーモデルです。パラメータのメモリ使用量。

トレーニングの安定性を向上させるために、事前正規化に RMSNorm を使用します。

トレーニングの安定性を向上させるためのクエリ/キーの正規化。

ポストトレーニングに関しては、研究チームは、一般的なポストトレーニングを改善すると、モデルが指示に従う、推論する、書く能力が強化されるため、すべての Apple Intelligence 機能のパフォーマンスを向上させることができることを発見しました。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

基本モデルは、iPhone、iPad、Mac をサポートするパーソナルインテリジェンスシステムである Apple Intelligence 用に特別に設計されています。

Apple は、特定のタスクに合わせて小型モデルを微調整することで、小型モデルのパフォーマンスを最先端のレベルに向上できることを発見しました。さらに、ランタイム交換可能なアダプターに基づいたアーキテクチャを開発しました。単一の基本モデルを数十のそのようなタスクに特化します。図 2 は、高レベルの概要を示しています。

アダプターアーキテクチャ

Apple は LoRA アダプターを使用して、特定のタスクに合わせてモデルを微調整します。タスクごとに、AFM 自己注意層と点単位フィードフォワードネットワークの全結合層のすべての線形射影行列を調整します。アダプターを微調整するだけで、基本の事前トレーニング済みモデルの元のパラメーターは変更されないため、特定のタスクをサポートするようにアダプターを調整しながら、モデルの一般的な知識を維持できます。

量子化

メモリ予算が限られているエッジデバイスに AFM を組み込み、推論コストを削減するには、量子化手法を考慮する必要があります。以前の研究では、4 ビット量子化モデルは、生の 32/16 ビット浮動小数点と比較して損失が小さいことがわかっています。

モデルの能力と推論パフォーマンスの最適なバランスを達成するために、Apple は最先端の量子化手法と精度回復アダプターを活用するフレームワークを開発しました。これにより、モデルは各重みの平均重みが 4 ビット未満の場合にほぼ損失のない量子化を実現でき、柔軟な量子化スキームの選択が可能になります。

方法

ポストトレーニング後、モデルは圧縮および量子化され、4 ビット未満の平均重みが得られます。定量的モデルは通常、中程度の品質の低下を示します。したがって、Apple は機能開発に量子化モデルを直接使用せず、品質回復のためにパラメータ効率の高い LoRA アダプタのセットを接続します。

トレーニング精度回復アダプターはサンプル効率が高く、トレーニングベースモデルのミニバージョンと考えることができることは注目に値します。アダプターの事前トレーニング段階では、量子化モデルの機能を完全に復元するために必要なトークンはわずか約 100 億トークン (基本モデルのトレーニングの約 0.15%) です。

アプリケーションアダプターはこれらの精度回復アダプターから微調整されるため、追加のメモリ使用量や推論コストは発生しません。アダプターのサイズに関して、Apple は、アダプターランク 16 がモデルの容量と推論パフォーマンスの間の最良のトレードオフを提供することを発見しました。

ただし、柔軟性を高めるために、Apple はアプリケーションチームが選択できるように、さまざまなランク {8、16、32} の精度回復アダプターのセットを提供しています。

混合精度量子化

残留接続は、AFM のすべてのトランスブロックとすべての層に存在します。したがって、すべてのレイヤーが同じ重要性を持つとは考えられません。この直感に従い、Apple は特定のレイヤーで 2 ビット量子化 (デフォルトは 4 ビット) を使用するようにすることで、メモリ使用量をさらに削減しました。平均して、AFM-on-device は品質を大幅に損なうことなく、わずか約 3.5 ビット/ウェイト (bpw) まで圧縮できます。

評価

研究チームは、一般的なオープンソース評価ツールとベンチマークを使用して、AFM 事前トレーニング済みモデルを評価します。表 2 は、HELM MMLU v1.5.0 上の AFM-on-device および AFM-server の結果を示しています。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

これらのベンチマークは、AFM 事前トレーニングモデルが強力な言語機能と推論機能を備えており、トレーニング後の強固な基盤と機能の微調整を提供していることを示しています。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

AFMとオープンソースモデル(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)および商用モデル(GPT3.5およびGPT-4)との比較結果３． AFM モデルは、他のモデルと比較して人間の評価者に好まれます。特に、AFM-on-device は、モデルサイズが 25% 小さいにもかかわらず、Phi-3-mini と比較して 47.7% の勝率を達成し、オープンソースの強力なベースラインである Gemma-7B および Mistral-7B よりもさらに優れています。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

プロンプトの指示に従う応答を生成するモデルの能力を測定するために、研究チームは、IFEval ベンチマークでデバイス上の AFM と AFM サーバーを評価し、結果を以下の図 4 に示しました。

図 5 に示すように、AFM サーバーは、Gemini-1.5-Pro-Preview-0514 や GPT-4 よりも優れた最高の全体精度を実現します。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書

Apple は、AFM をいくつかの最高のモデルおよび小規模なオープンソースモデルと比較しました。図 6 に示すように、AFM-on-device は Gemma-7B および Mistral-7B と比較して同等以上のパフォーマンスを達成できます。 AFM サーバーのパフォーマンスは、DBRX-Instruct および GPT3.5 よりも大幅に優れており、GPT4 に匹敵します。

明らかにした！アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書