目次
メソッドの概要: MM1 構築の秘密
監視された微調整結果
ホームページ テクノロジー周辺機器 AI Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

Mar 15, 2024 pm 02:43 PM
ai モデル 配置

今年以来、Apple は明らかに生成人工知能 (GenAI) への重点と投資を増やしています。最近の Apple 株主総会で、Apple CEO のティム・クック氏は、同社は今年 GenAI の分野で大きな進歩を遂げる計画であると述べた。さらに、Apple は 10 年間にわたる自動車製造プロジェクトを放棄すると発表したため、もともと自動車製造に従事していたチームメンバーの一部が GenAI 分野に目を向け始めました。

これらの取り組みを通じて、Apple は GenAI を強化する決意を社外に示しました。現在、GenAIのマルチモーダル分野の技術と製品、特にOpenAIのSoraが注目を集めています。 Appleは当然、この分野で躍進を遂げたいと考えている。

共著の研究論文「MM1: マルチモーダル LLM 事前トレーニングからの方法、分析、洞察」の中で、Apple はマルチモーダル事前トレーニングに基づいた研究を明らかにしました。最大30Bパラメータを収録したマルチモーダルLLMシリーズモデルを発売。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

論文アドレス: https://arxiv.org/pdf/2403.09611.pdf

調査中、チームはさまざまなアーキテクチャ コンポーネントの重要性とデータ選択について徹底的な議論を行いました。画像エンコーダ、ビジュアル言語コネクタ、さまざまな事前トレーニング データを慎重に選択することで、重要な設計ガイドラインをいくつかまとめました。具体的には、この研究の主な貢献には次の側面が含まれます。

まず、研究者らはモデル アーキテクチャの決定と事前トレーニング データの選択に関して小規模なアブレーション実験を実施し、いくつかの興味深い傾向を発見しました。 モデリング設計の側面の重要性は、画像解像度、ビジュアル エンコーダの損失と容量、ビジュアル エンコーダの事前トレーニング データの順に重要です。

第 2 に、研究者らは、画像キャプション、インターリーブ画像テキスト、プレーン テキスト データという 3 つの異なるタイプの事前トレーニング データを使用しました。 彼らは、ショット数が少なくテキストのみのパフォーマンスに関しては、インターリーブされたテキストのみのトレーニング データが重要であるのに対し、ショット数がゼロのパフォーマンスに関しては、字幕データが最も重要であることを発見しました。 これらの傾向は教師あり微調整 (SFT) 後も持続し、事前トレーニング中に提示されたパフォーマンスとモデリングの決定が微調整後も保持されていることを示しています。

最後に、研究者らは、最大 300 億 (他は 30 億と 70 億) のパラメータを持つマルチモーダル モデル シリーズであり、高密度モデルで構成される MM1 を構築しました。混合エキスパート (MoE) バリアントで構成されており、事前トレーニングされた指標で SOTA を達成するだけでなく、一連の既存のマルチモーダル ベンチマークで監視付き微調整を行った後も競争力のあるパフォーマンスを維持します。

事前トレーニング済みモデル MM1 は、数ショットのシナリオでの字幕や質問と回答のタスクで優れたパフォーマンスを発揮し、Emu2、Flamingo、IDEFICS を上回ります。監視付き微調整後の MM1 は、12 のマルチモーダル ベンチマークでも強力な競争力を示しています。

大規模なマルチモーダル事前トレーニングのおかげで、MM1 はコンテキスト予測、マルチイメージ、思考連鎖推論において優れたパフォーマンスを発揮します。同様に、MM1 は、命令チューニング後に強力な数ショット学習機能を示します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人#

メソッドの概要: MM1 構築の秘密

高性能 MLLM (マルチモーダル大規模言語モデル、マルチモーダル大規模言語モデル) の構築は、非常に実践的な作業です。高レベルのアーキテクチャ設計とトレーニング プロセスは明確ですが、具体的な実装方法は必ずしも明らかではありません。この研究では、研究者らは高性能モデルを構築するために実行されるアブレーションについて詳細に説明しています。彼らは、次の 3 つの主な設計決定の方向性を検討しました。

  • アーキテクチャ: 研究者らは、さまざまな事前トレーニング済み画像エンコーダを検討し、LLM とこれらのエンコーダの接続を検討しました。 立ち上がるためのさまざまな方法。
  • データ: 研究者は、さまざまな種類のデータとそれらの相対的な混合の重みを検討しました。
  • トレーニング手順: 研究者らは、ハイパーパラメーターやモデルのどの部分をいつトレーニングするかなど、MLLM をトレーニングする方法を検討しました。

アブレーション設定

大規模な MLLM をトレーニングすると大量のエネルギーが消費されるため、リソース、研究者らは簡素化されたアブレーション設定を使用しました。アブレーションの基本構成は次のとおりです:

  • 画像エンコーダー: DFN-5B および VeCap-300M で CLIP 損失でトレーニングされた ViT-L/14 モデル、画像サイズは 336 ×336。
  • ビジュアル言語コネクタ: C-Abstractor、144 個の画像トークンが含まれています。
  • 事前トレーニング データ: 混合字幕画像 (45%)、インターリーブ画像テキスト ドキュメント (45%)、およびプレーン テキスト (10%) データ。
  • 言語モデル: 1.2B トランスフォーマー デコーダー言語モデル。

さまざまな設計上の決定を評価するために、研究者らはさまざまな VQA および画像記述タスクでゼロショットと少数ショット (4 サンプルと 8 サンプル) のパフォーマンスを使用しました。: COCO キャプション、 NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA、および OK-VQA。

モデル アーキテクチャ アブレーション実験

研究者らは、LLM による視覚データの処理を可能にするコンポーネントを分析しました。具体的には、(1) ビジュアル エンコーダを最適に事前トレーニングする方法、および (2) ビジュアル特徴を LLM の空間に接続する方法を研究しました (図 3 左を参照)。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

  • #画像エンコーダの事前トレーニング。このプロセスにおいて、研究者は主に、画像解像度と画像エンコーダの事前トレーニング目標の重要性を排除しました。他のアブレーション実験とは異なり、研究者らは一部のより大きな画像エンコーダを使用するのに十分な容量を確保するために、(1.2B ではなく) 2.9B LLM を使用したことに注意してください。
  • エンコーダ エクスペリエンス: 画像解像度が最も大きな影響を及ぼし、次にモデル サイズとトレーニング データ構成が続きます。表 1 に示すように、画像解像度を 224 から 336 に増やすと、すべてのアーキテクチャのすべてのメトリックが約 3% 向上します。モデル サイズを ViT-L から ViT-H に増やすとパラメーターは 2 倍になりますが、パフォーマンスの向上は控えめで、通常は 1% 未満です。最後に、合成キャプション データセットである VeCap-300M を追加すると、ショット数が少ないシナリオでパフォーマンスが 1% 以上向上します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

  • ビジュアル言語コネクタと画像解像度。このコンポーネントの目標は、視覚表現を LLM 空間に変換することです。画像エンコーダは ViT であるため、その出力は単一のエンベディング、または入力画像セグメントに対応するグリッド配置されたエンベディングのセットのいずれかになります。したがって、画像トークンの空間的配置を LLM の順序的配置に変換する必要があります。同時に、実際の画像トークン表現も単語埋め込み空間にマッピングする必要があります。
  • VL コネクタのエクスペリエンス: ビジュアル トークンの数と画像解像度が最も重要ですが、VL コネクタの種類はほとんど影響しません。図 4 に示すように、ビジュアル トークンの数または画像解像度が増加するにつれて、ゼロ サンプルおよび少数のサンプルの認識率が増加します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

#トレーニング前のデータアブレーション実験

一般的には、モデル トレーニングは、事前トレーニングと指導チューニングの 2 つの段階に分かれています。前者の段階ではネットワーク規模のデータが使用され、後者の段階ではミッション固有のキュレーションされたデータが使用されます。以下では、この記事の事前トレーニング段階に焦点を当て、研究者によるデータ選択について詳しく説明します (図 3 右)。

MLLM のトレーニングに一般的に使用されるデータには、画像とテキストのペアの説明で構成されるキャプション データと、Web から取得した画像とテキストが交互に挿入されたドキュメントの 2 種類があります。表 2 は、データ セットの完全なリストです。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人


    ##データ レッスン 1: インターリーブされたデータは次のことに役立ちます。少数サンプルおよびプレーン テキストのパフォーマンスを向上させるために使用されますが、字幕データはゼロサンプルのパフォーマンスを向上させることができます。図 5a は、インターリーブ データと字幕付きデータのさまざまな組み合わせの結果を示しています。
  • データ エクスペリエンス 2: プレーン テキスト データは、少数サンプルおよびプレーン テキストのパフォーマンスの向上に役立ちます。図5bに示すように、プレーンテキストデータと字幕データを組み合わせることで、少数ショットのパフォーマンスが向上します。
  • データ レッスン 3: 画像データとテキスト データを慎重にブレンドすると、強力なテキスト パフォーマンスを維持しながら、最適なマルチモーダル パフォーマンスが得られます。図 5c は、画像 (タイトルとインターレース) とプレーン テキスト データの間のいくつかの混合比率を試しています。
  • データ エクスペリエンス 4: 合成データは、数回の学習に役立ちます。図 5d に示すように、合成データは少数ショット学習のパフォーマンスを大幅に向上させており、絶対値はそれぞれ 2.4% と 4% です。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

最終モデルとトレーニング方法

研究者は以前のアブレーション結果を収集し、 MM1 マルチモーダル事前トレーニングの最終レシピ:

  • 画像エンコーダー: 画像解像度の重要性を考慮して、研究者は解像度 378x378px の ViT-H モデルを使用し、DFN-5B の CLIP ターゲットを使用して事前トレーニングしました。
  • ビジュアル言語コネクタ: ビジュアル トークンの数が最も重要であるため、研究者は 144 個のトークンを持つ VL コネクタを使用しました。実際のアーキテクチャは重要ではないようで、研究者は C-Abstract を選択しました;
  • データ: サンプルがゼロおよび少数のサンプルのパフォーマンスを維持するために、研究者は次を使用しました。慎重に結合されたデータ: 45% が画像とテキストが交互に挿入されたドキュメント、45% が画像とテキストのドキュメント、10% がテキストのみのドキュメント。

モデルのパフォーマンスを向上させるために、研究者らは LLM のサイズを 3B、7B、および 30B パラメーターに拡張しました。すべてのモデルは完全にフリーズ解除され、バッチ サイズ 512 シーケンス、シーケンス長 4096、シーケンスあたり最大 16 枚の画像、解像度 378 × 378 で事前トレーニングされました。すべてのモデルは AXLearn フレームワークを使用してトレーニングされました。

彼らは、対数空間での線形回帰を使用して、小規模なモデルからより大きなモデルへの変更を外挿し、900 万、8500 万、30200 万、1.2B の小規模な学習率でグリッド検索を実行しました。 (図 6 を参照)、結果は、(非埋め込み) パラメーターの数 N を考慮して、最適なピーク学習率 η を予測します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

#専門家の混合(MoE)により拡張。実験では、研究者らは言語モデルの FFN 層にさらに多くの専門家を追加することで、高密度モデルを拡張する方法をさらに検討しました。

稠密モデルを MoE に変換するには、稠密言語デコーダを MoE 言語デコーダに置き換えるだけです。 MoE をトレーニングするために、研究者らは、トレーニング データとトレーニング トークンを含む、Dense Backbone 4 と同じトレーニング ハイパーパラメーターと同じトレーニング設定を使用しました。

マルチモーダル事前トレーニングの結果に関して、研究者は、適切なプロンプトを使用して、上限および VQA タスクで事前トレーニングされたモデルを評価しました。表 3 は、ゼロサンプルと少数のサンプルを評価します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

監視された微調整結果

最後に、研究者らは、事前トレーニングされたモデルに基づいてトレーニングされた教師あり微調整 (SFT) 実験を導入しました。

彼らは、LLaVA-1.5 と LLaVA-NeXT に従い、さまざまなデータセットから約 100 万の SFT サンプルを収集しました。直感的に画像解像度が高いほどパフォーマンスが向上することを考慮して、研究者らは高解像度に拡張された SFT 手法も採用しました。

教師あり微調整の結果は次のとおりです。

表 4 は SOTA との比較を示しています。「-Chat」は MM1 を示します。モデル監修後の微調整を行っております。

まず、平均して、MM1-3B-Chat と MM1-7B-Chat は、リストされている同じサイズのすべてのモデルよりも優れたパフォーマンスを発揮します。 MM1-3B-Chat および MM1-7B-Chat は、VQAv2、TextVQA、ScienceQA、MMBench、および最近のベンチマーク (MMMU および MathVista) で特に優れたパフォーマンスを発揮します。

第二に、研究者らは、3B-MoE (64 人の専門家) と 6B-MoE (32 人の専門家) という 2 つの MoE モデルを調査しました。 Apple の MoE モデルは、ほぼすべてのベンチマークで高密度モデルよりも優れたパフォーマンスを達成しました。これは、MoE がさらに拡大する大きな可能性を示しています。

3 番目に、30B サイズ モデルの場合、MM1-30B-Chat は TextVQA、SEED、MMMU 上で Emu2-Chat37B および CogVLM-30B よりも優れたパフォーマンスを発揮します。 MM1 は、LLaVA-NeXT と比較して、総合的なパフォーマンスも優れています。

ただし、LLaVA-NeXT は複数の画像推論をサポートしておらず、少数サンプルのプロンプトもサポートしていません。これは、各画像が LLM に送信される 2880 個のトークンとして表され、その合計数がMM1 のトークンは 720 個しかありません。これにより、複数の画像を含む特定のアプリケーションが制限されます。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

図 7b は、SFT 評価指標の平均パフォーマンスに対する入力画像解像度の影響を示しています。図 7c は、それを事前トレーニング データとして示しています。が増加し、モデルのパフォーマンスは向上し続けます。

画像解像度の影響。図 7b は、SFT 評価基準の平均パフォーマンスに対する入力画像解像度の影響を示しています。

事前トレーニングの影響: 図 7c は、事前トレーニング データが増加するにつれて、モデルのパフォーマンスが向上し続けていることを示しています。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

研究の詳細については、元の論文を参照してください。

以上がAppleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です 「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

通貨サークル市場に関するリアルタイムデータの上位10の無料プラットフォーム推奨事項がリリースされます 通貨サークル市場に関するリアルタイムデータの上位10の無料プラットフォーム推奨事項がリリースされます Apr 22, 2025 am 08:12 AM

初心者に適した暗号通貨データプラットフォームには、Coinmarketcapと非小さいトランペットが含まれます。 1。CoinMarketCapは、初心者と基本的な分析のニーズに合わせて、グローバルなリアルタイム価格、市場価値、取引量のランキングを提供します。 2。小さい引用は、中国のユーザーが低リスクの潜在的なプロジェクトをすばやくスクリーニングするのに適した中国フレンドリーなインターフェイスを提供します。

See all articles