自然言語処理と同様に、事前トレーニングされたビジュアル バックボーンの転送により、さまざまなビジュアル タスクにおけるモデルのパフォーマンスが向上します。大規模なデータセット、スケーラブルなアーキテクチャ、および新しいトレーニング方法はすべて、モデルのパフォーマンスの向上を推進しました。
しかし、視覚モデルは依然として言語モデルに大きく遅れをとっています。具体的には、これまで最大のビジョン モデルである ViT のパラメーターは 4B のみですが、エントリーレベルの言語モデルは 10B パラメーターを超えることがよくあり、ましてや 540B パラメーターを持つ大規模な言語モデルは言うまでもありません。
AI モデルのパフォーマンスの限界を調査するために、Google Research は最近 CV の分野で研究を実施し、ビジョン トランスフォーマーのパラメータ サイズを 22B に拡大し、ViT を提案しました。前回と同様の-22Bであり、モデルパラメータ量4Bと比較すると、これまでで最大の高密度ViTモデルと言えます。
#論文アドレス: https://arxiv.org/pdf/2302.05442.pdf
#従来最大のViT-GとViT-eを比較した結果が表1にありますが、以下の表からViT-22Bは主にモデル幅を拡大していることがわかります。 、パラメーターを作成します。ViT-G よりもボリュームが大きく、深さは同じです。##現在の ViT ラージ モデル
としてこの Zhihu ネチズンは、もしかしたら Google は ChatGPT でラウンドに敗れ、CV 分野で競争することになるのではないか、と述べています。 ###########################どうやってするの?研究の初期段階で、ViT の拡張中にトレーニングの不安定性が発生し、アーキテクチャの変更につながる可能性があることが判明しました。その後、研究者たちはモデルを慎重に設計し、前例のない効率で並行してトレーニングしました。 ViT-22B の品質は、(数ショットの) 分類から高密度の出力タスクに至るまで、現在の SOTA レベルを満たしているか、それを超えている包括的な一連のタスクを通じて評価されました。たとえば、ViT-22B は、凍結された視覚特徴抽出器として使用された場合でも、ImageNet 上で 89.5% の精度を達成しました。これらの視覚的特徴に一致するようにテキスト タワーをトレーニングすることにより、ImageNet 上で 85.9% のゼロショット精度を達成します。さらに、モデルを教師とみなし、蒸留ターゲットとして使用することもでき、研究者らは ViT-B 学生モデルをトレーニングし、ImageNet 上で 88.6% の精度を達成し、この規模のモデルでは SOTA レベルに達しました。
モデル アーキテクチャ
ViT-22B は、オリジナルの Vision Transformer アーキテクチャに似た Transformer ベースのエンコーダ モデルですが、効率と安定性を向上させるために次の 3 つの主要な変更が含まれています。大規模トレーニング: 並列レイヤー、クエリ/キー (QK) 正規化、バイアスの省略。
#並列レイヤー。注意と MLP の並列構造を設計した Wang と小松崎の研究で述べられているように、
これは達成できます。 MLP の線形投影とアテンション ブロックを組み合わせて追加の並列化を実現します。特に、クエリ/キー/値射影の行列乗算と MLP の最初の線形層は、アテンション外射影と MLP の 2 番目の線形層の場合と同様、単一の演算に融合されています。
QK 正規化。大規模なモデルをトレーニングする際の難点の 1 つはモデルの安定性であり、研究者らは ViT を拡張する過程で、数千ラウンドのステップ後にトレーニング損失が発散することを発見しました。この現象は、8B パラメータ モデルで特に顕著です。モデルトレーニングを安定させるために、研究者らはGilmerらの手法を採用し、ドット積アテンション計算の前にクエリとキーにLayerNorm正規化演算を適用してトレーニングの安定性を向上させた。具体的には、注目の重みは次のように計算されます:
#偏見を省略しました。 PaLM の後、QKV 投影からバイアス項が削除され、すべてのレイヤーノルムがバイアスなしで適用され、その結果、品質を劣化させることなくアクセラレータの利用率が向上 (3%) しました。ただし、PaLM とは異なり、研究者らは MLP 高密度層にバイアス項を使用しましたが、それでも、このアプローチは品質を考慮しながら速度を犠牲にすることはありませんでした。
図 2 は、ViT-22B エンコーダ ブロックを示しています。埋め込み層は、元の ViT に基づいてパッチ抽出、線形投影、追加位置の埋め込みなどの操作を実行します。研究者らは、マルチヘッド アテンション プーリングを使用して、ヘッド内の各トークン表現を集約しました。
#ViT-22B は 14 × 14 パッチと 224 × 224 の画像解像度を使用します。 ViT-22B は学習された 1 次元位置の埋め込みを採用しています。高解像度画像の微調整中に、研究者らは、事前にトレーニングされた位置埋め込みが元の画像のどこにあるかに基づいて 2 次元補間を実行しました。トレーニング インフラストラクチャと効率
ViT-22B は、JAX として実装され、Scenic に組み込まれた FLAX ライブラリを使用します。モデルとデータの両方の並列処理を利用します。特に、研究者らは、すべての中間物 (重みやアクティベーションなど) のシャーディングとチップ間通信の明示的な制御を提供する jax.xmap API を使用しました。研究者らはチップをサイズ t × k の 2D 論理グリッドに編成しました。ここで、t はデータ平行軸のサイズ、k はモデル軸のサイズです。次に、t グループのそれぞれについて、k 個のデバイスが同じバッチの画像を取得します。各デバイスは 1/k のアクティベーションのみを保持し、すべての線形層出力の 1/k を計算する責任を負います (詳細は以下を参照)。
図 3: 非同期並列線形演算 (y = Ax): デバイス間での通信と計算のオーバーラップ モデル並列行列乗算用。
非同期並列線形操作。スループットを最大化するには、計算と通信を考慮する必要があります。つまり、これらの操作を非シャードの場合と分析的に同等にしたい場合は、通信をできる限り少なくする必要があり、理想的には行列乗算ユニット (FLOP の容量の大部分が存在する) を維持できるようにそれらの操作をオーバーラップさせます。いつも忙しい。パラメータのシャーディング。モデルは最初の軸に並列したデータです。各パラメータをこの軸上で完全に複製することも、各デバイスをその一部として保存することもできます。研究者らは、より大きなモデルとバッチ サイズに適合できるように、モデル パラメーターからいくつかの大きなテンソルを分割することを選択しました。
これらの手法を使用して、ViT-22B は TPUv4 でのトレーニング中にコアあたり 1 秒あたり 1.15k トークンを処理します。 ViT-22B のモデル フロップ使用率 (MFU) は 54.9% であり、ハードウェアが非常に効率的に使用されていることを示しています。 PaLM は 46.2% の MFU を報告しているのに対し、研究者らは同じハードウェア上で ViT-e (データ並列処理のみ) の MFU を 44.0% と測定したことに注意してください。
実験結果
実験では、画像分類における ViT-22B の評価結果を調査します。表 2 の結果は、ViT-22B がさまざまな指標において依然として大幅な改善を示していることを示しています。さらに、ViT-22B のような大型モデルの線形プローブは、高分解能の小型モデルの完全な微調整パフォーマンスに近づくか、それを超えることが研究で示されており、多くの場合、より安価で簡単に行うことができます。
研究では、ViT-22B を他のデータセットと比較しながら、細粒度の分類データセット iNaturalist 2017 の線形分離性をさらにテストします。比較のための ViT バリアント。この調査では、224px と 384px の入力解像度をテストしました。結果を図 4 に示します。この研究では、特に標準の 224px 入力解像度において、ViT-22B が他の ViT バリアントよりも大幅に優れていることが観察されました。これは、ViT-22B の多数のパラメーターが画像から詳細な情報を抽出するのに役立つことを示しています。
#表 3 は、CLIP、ALIGN、BASIC、CoCa、および LiT モデルに対する ViT-22B のゼロサンプル マイグレーション結果を示しています。表 3 の下部では、3 つの ViT モデルの性能を比較しています。
ViT-22B は、すべての ImageNet テスト セットで同等以上の結果を達成します。特に、ObjectNet テスト セットのゼロ ショットの結果は、ViT モデルのサイズと高度に相関しています。最大の ViT-22B は、困難な ObjectNet テスト セットに新しい最先端技術を導入します。
配布外 (OOD)。この研究では、JFT から ImageNet へのラベル マッピング、および ImageNet からさまざまな配布外データセット (つまり、ObjectNet、ImageNet-v2、ImageNet-R、および ImageNet-A) へのラベル マッピングを構築します。
これまでに確認できた結果は、ImageNet の改善と一致して、拡張モデルによって配布外のパフォーマンスが向上しているということです。これは、JFT イメージのみを参照したモデルや、ImageNet で微調整されたモデルに対して機能します。どちらの場合も、ViT-22B は大型モデルで OOD パフォーマンスが向上する傾向を継続しています (図 5、表 11)。
さらに、研究者らは、セマンティック セグメンテーションと単眼深度推定でキャプチャされた ViT-22B モデルのパフォーマンスも研究しました。幾何学的および空間的情報の品質。
セマンティック セグメンテーション。研究者らは、ADE20K、Pascal Context、Pascal VOC の 3 つのベンチマークで ViT-22B をセマンティック セグメンテーション バックボーンとして評価しました。表 4 からわかるように、ViT-22B バックボーンの移行は、セグメンテーション マスクが少数しか見られない場合に、より適切に機能します。
#単眼の深さの推定。表 5 は、研究の主な結果をまとめたものです。上の行 (DPT デコーダー) からわかるように、ViT-22B 機能を使用すると、さまざまなバックボーンと比較して (すべてのメトリクスで) 最高のパフォーマンスが得られます。 ViT-22B バックボーンを、より小型だが ViT-22B と同じデータでトレーニングされたモデルである ViT-e と比較することで、アーキテクチャを拡張することでパフォーマンスが向上することがわかりました。さらに、ViT-e バックボーンを ViT-L (ViT-e と同様のアーキテクチャですが、トレーニング データが少ない) と比較した研究では、これらの改善も次の点から得られることがわかりました。拡張機能 トレーニング前のデータ。これらの調査結果は、大規模なモデルと大規模なデータセットの両方がパフォーマンスの向上に役立つことを示唆しています。
この研究では、ビデオ データセットについても調査しました。表 6 は、Kinetics 400 および Moments in Time データセットでのビデオ分類結果を示しており、凍結されたバックボーンを使用して競合する結果が達成できることを示しています。この研究ではまず、40 億のパラメータで構成され、同じく JFT データセットでトレーニングされた過去最大のビジュアル バックボーン モデルを備えた ViT-e と比較します。より大きな ViT-22B モデルでは、Kinetics 400 で 1.5 ポイント、Moments in Time で 1.3 ポイント向上していることが観察されました。
最終調査では、完全なエンドツーエンドの微調整を通じてさらに改善の余地があることが判明しました。
#技術的な詳細については、元の論文を参照してください。
以上がGoogle は視覚伝達モデルのパラメータを 220 億まで拡張し、ChatGPT が普及して以来研究者が集団的な行動をとったの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。