2024 Worldwide Developers Conference で、Apple は、iPhone、iPad、Mac をカバーする実用的なインテリジェント サービスを提供できる新しいパーソナライズされたインテリジェント システムである Apple Intelligence を発表しました。これは、iOS 18、iPadOS 18、および macOS Sequoia に深く統合されています。
クック氏はかつて、Apple Intelligence は Apple のイノベーションの新たな章であり、ユーザーの製品の使用方法を変えるだろうと述べました。同氏は、Appleの独自のアプローチが生成人工知能とユーザーの個人情報を組み合わせて、真に有用なインテリジェントサービスを提供していると強調した。さらに、Apple Intelligence は情報への完全にプライベートで安全なアクセスを提供し、ユーザーが自分にとって最も重要なことを達成できるように支援します。これはAppleならではのAI体験です。
さて、Apple Intelligenceの正式発表から1ヶ月以上が経過し、ついにこの技術がスマートデバイスに実装され、関連する技術文書がついに公開されました。
過去 1 日で、iPhone 15 Pro または iPhone 15 Pro Max を所有するユーザーは、iOS 18.1 開発ベータ版をダウンロードして、Apple Intelligence の機能を体験できるようになりました。
この 47 ページの技術レポートのリリースにより、Apple Intelligence の背後にある秘密兵器についてより深く理解できるようになります。
- レポートアドレス: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lang_models.pdf
レポートでは、2 つのモデル - AFM-on-device、AFM の略称について詳しく説明します。約 30 億のパラメータを持つ言語モデルである Apple Foundation Model と、特殊なタスクを効率的、正確かつ責任を持って実行できる、より大規模なサーバーベースの言語モデル AFM サーバー (図 1)。
これら 2 つの基本モデルは、Apple のより大きな生成モデル ファミリの一部として存在します。 Architecture andTraining
AFM基本モデルは、次の設計を備えたトランスアーキテクチャ上に構築された密なデコーダーモデルです。パラメータのメモリ使用量。 トレーニングの安定性を向上させるために、事前正規化に RMSNorm を使用します。
トレーニングの安定性を向上させるためのクエリ/キーの正規化。
KV キャッシュ メモリのフットプリントを削減するための 8 つのキーと値のヘッダーを備えたグループ化クエリ アテンション (GQA)。 SwiGLU が有効化され、効率が向上します。 RoPE 位置埋め込みでは、長いコンテキストをサポートするために、ベース周波数 (基本周波数) が 500k に設定されます。
AFM 事前トレーニング プロセスは、さまざまな Apple Intelligence 機能をサポートする高性能言語モデルの開発において重要な役割を果たします。研究チームは、高品質のエンドツーエンドのユーザー エクスペリエンスを実現するために、効率とデータ品質に重点を置いています。 - ポストトレーニングに関しては、研究チームは、一般的なポストトレーニングを改善すると、モデルが指示に従う、推論する、書く能力が強化されるため、すべての Apple Intelligence 機能のパフォーマンスを向上させることができることを発見しました。
これらのモデル機能がユーザーのプライバシー保護に対する Apple の取り組みと Apple の責任ある AI 原則と一致していることを確認するために、トレーニング後の作業には一連のデータ収集と生成、命令の調整と調整の革新が含まれます。トレーニング後のプロセスは、教師あり微調整 (SFT) とヒューマン フィードバックからの強化学習 (RLHF) の 2 つの段階で構成されます。研究チームは、2 つの新しいトレーニング後アルゴリズムを提案しました: (1) 教師委員会 (iTeC) による拒否サンプリング微調整アルゴリズム、および (2) ミラー降下ポリシー最適化を使用した強化学習反復用の RLHF アルゴリズム (ミラー降下ポリシー最適化) ) と Leave-one-out Advantage Estimator (MDLOO) により、モデルの品質が大幅に向上します。 Apple Intelligence 機能
基本モデルは、iPhone、iPad、Mac をサポートするパーソナル インテリジェンス システムである Apple Intelligence 用に特別に設計されています。
Apple は、特定のタスクに合わせて小型モデルを微調整することで、小型モデルのパフォーマンスを最先端のレベルに向上できることを発見しました。さらに、ランタイム交換可能なアダプターに基づいたアーキテクチャを開発しました。単一の基本モデルを数十のそのようなタスクに特化します。図 2 は、高レベルの概要を示しています。
Apple は LoRA アダプターを使用して、特定のタスクに合わせてモデルを微調整します。タスクごとに、AFM 自己注意層と点単位フィードフォワード ネットワークの全結合層のすべての線形射影行列を調整します。アダプターを微調整するだけで、基本の事前トレーニング済みモデルの元のパラメーターは変更されないため、特定のタスクをサポートするようにアダプターを調整しながら、モデルの一般的な知識を維持できます。 メモリ予算が限られているエッジデバイスに AFM を組み込み、推論コストを削減するには、量子化手法を考慮する必要があります。以前の研究では、4 ビット量子化モデルは、生の 32/16 ビット浮動小数点と比較して損失が小さいことがわかっています。 モデルの能力と推論パフォーマンスの最適なバランスを達成するために、Apple は最先端の量子化手法と精度回復アダプターを活用するフレームワークを開発しました。これにより、モデルは各重みの平均重みが 4 ビット未満の場合にほぼ損失のない量子化を実現でき、柔軟な量子化スキームの選択が可能になります。 ポストトレーニング後、モデルは圧縮および量子化され、4 ビット未満の平均重みが得られます。定量的モデルは通常、中程度の品質の低下を示します。したがって、Apple は機能開発に量子化モデルを直接使用せず、品質回復のためにパラメータ効率の高い LoRA アダプタのセットを接続します。 トレーニング精度回復アダプターはサンプル効率が高く、トレーニングベースモデルのミニバージョンと考えることができることは注目に値します。アダプターの事前トレーニング段階では、量子化モデルの機能を完全に復元するために必要なトークンはわずか約 100 億トークン (基本モデルのトレーニングの約 0.15%) です。 アプリケーション アダプターはこれらの精度回復アダプターから微調整されるため、追加のメモリ使用量や推論コストは発生しません。アダプターのサイズに関して、Apple は、アダプター ランク 16 がモデルの容量と推論パフォーマンスの間の最良のトレードオフを提供することを発見しました。 ただし、柔軟性を高めるために、Apple はアプリケーション チームが選択できるように、さまざまなランク {8、16、32} の精度回復アダプターのセットを提供しています。 残留接続は、AFM のすべてのトランスブロックとすべての層に存在します。したがって、すべてのレイヤーが同じ重要性を持つとは考えられません。この直感に従い、Apple は特定のレイヤーで 2 ビット量子化 (デフォルトは 4 ビット) を使用するようにすることで、メモリ使用量をさらに削減しました。平均して、AFM-on-device は品質を大幅に損なうことなく、わずか約 3.5 ビット/ウェイト (bpw) まで圧縮できます。 研究チームは、一般的なオープンソース評価ツールとベンチマークを使用して、AFM 事前トレーニング済みモデルを評価します。表 2 は、HELM MMLU v1.5.0 上の AFM-on-device および AFM-server の結果を示しています。
これらのベンチマークは、AFM 事前トレーニング モデルが強力な言語機能と推論機能を備えており、トレーニング後の強固な基盤と機能の微調整を提供していることを示しています。
AFMとオープンソースモデル(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)および商用モデル(GPT3.5およびGPT-4)との比較結果3. AFM モデルは、他のモデルと比較して人間の評価者に好まれます。特に、AFM-on-device は、モデル サイズが 25% 小さいにもかかわらず、Phi-3-mini と比較して 47.7% の勝率を達成し、オープンソースの強力なベースラインである Gemma-7B および Mistral-7B よりもさらに優れています。
プロンプトの指示に従う応答を生成するモデルの能力を測定するために、研究チームは、IFEval ベンチマークでデバイス上の AFM と AFM サーバーを評価し、結果を以下の図 4 に示しました。 図 5 に示すように、AFM サーバーは、Gemini-1.5-Pro-Preview-0514 や GPT-4 よりも優れた最高の全体精度を実現します。
Apple は、AFM をいくつかの最高のモデルおよび小規模なオープンソース モデルと比較しました。図 6 に示すように、AFM-on-device は Gemma-7B および Mistral-7B と比較して同等以上のパフォーマンスを達成できます。 AFM サーバーのパフォーマンスは、DBRX-Instruct および GPT3.5 よりも大幅に優れており、GPT4 に匹敵します。
図 7 は、数学的ベンチマークでのトレーニング後の AFM のパフォーマンスを比較しています。 AFM-on-device は、サイズが半分以下であるにもかかわらず、Mistral-7B および Gemma-7B よりも大幅に優れたパフォーマンスを発揮することがわかりました。
以下の図は、概要タスクで AFM-on-device アダプター、Phi-3-mini、Llama-3-8B、および Gemma-7B の品質を評価する人間の評価者を示しています。図 8 は、AFM-on-device-adapter が他のモデルよりも一般的に優れていることを示しています。
Apple Intelligenceは、ユーザーのプライバシーを念頭に置いて開発および設計されています。 図 9 は、さまざまなモデルについて人間の評価者によって与えられた違反率をまとめたもので、低いほど優れています。 AFM-on-device と AFM-server はどちらも敵対的なプロンプトに対して堅牢であり、オープンソースや商用モデルよりも違反率が大幅に低くなります。
図 10 は、AFM モデルが他のモデルと比較して人間の評価者に好まれていることを示しています。 以上が明らかにした!アーキテクチャとデータからトレーニングと最適化に至るまで、Apple のインテリジェンスを解体する 47 ページの文書の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。