1. 簡単な紹介
この論文では、手作りのデータ拡張に依存せずに、高度にセマンティックな画像表現を学習する方法を示します。この論文では、画像からの自己教師あり学習のための非生成アプローチである画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) を紹介します。 I-JEPA の背後にある考え方は単純です。単一のコンテキスト パッチから、同じイメージ内の異なるターゲット パッチの表現を予測します。 I-JEPA がセマンティック表現を生成するように導く中心的な設計選択はマスキング戦略です。具体的には、(a) 画像内のいくつかのターゲット パッチを予測する、(b) 十分に大きなスケール (画像の 15% - 20) でサンプル ターゲット パッチをサンプルする%)、(c) 十分に豊富な (空間的に分散された) コンテキスト ブロックを使用することが重要です。この論文では、I-JEPA がビジュアル トランスフォーマーと組み合わせると拡張性が高いことが経験的にわかりました。たとえば、この論文では、32 個の A100 GPU を使用して ImageNet 上で ViT-Huge/16 を 38 時間でトレーニングし、線形分類からオブジェクトのカウントや深さの予測まで、さまざまなレベルの抽象化を必要とする幅広いタスクにわたって強力なダウンストリーム パフォーマンスを実現しています。
2. 研究の背景
コンピュータ ビジョンには、2 つの一般的な画像自己教師あり学習方法があります。
不変性に基づく方法と生成方法。不変ベースの事前トレーニング アプローチを通じてエンコーダーを最適化することにより、同じ画像の 2 つ以上のビューに対して同様の埋め込みを生成できます。通常、イメージ ビューは、ランダムなスケーリング、トリミング、カラー ディザリングなど、一連の手作りのデータ拡張手法を使用して構築されます。これらの事前トレーニング方法は、高度なセマンティック レベルの表現を生成できますが、同時に、一部の下流タスクや、異なるデータ分布を持つ事前トレーニング タスクに悪影響を与える可能性がある強いバイアスも導入します。認知学習理論では、生物システムにおける表現学習の背後にある推進メカニズムの 1 つは、感覚入力に対する反応を予測するために内部モデルを適応させる方法であると考えられています。この考え方は、入力の一部を削除または破損し、何が破損しているかを予測することを学習する自己教師あり生成手法の中心にあります。特に、マスクのノイズ除去方法は、入力のピクセルまたはトークン レベルからランダムなマスク パッチを再構成することによって表現を学習します。ビューインバリアント手法と比較して、マスクの事前トレーニング タスクに必要な事前知識は少なく、画像モダリティを超えて容易に一般化できます。ただし、結果として得られる表現は多くの場合、セマンティック レベルが低く、線形プローブや転送設定などの既製の評価における不変ベースの事前トレーニングが不足しており、セマンティック分類タスクの監視が制限されています。したがって、これらの方法の利点を最大限に活用するには、より洗練された適応メカニズム (エンドツーエンドの微調整など) が必要です。
この論文では、画像変換をエンコードするために追加の事前知識を使用せずに、自己教師あり表現の意味レベルを向上させる方法を検討します。この目的のために、この論文では画像結合埋め込み予測アーキテクチャ (I-JEPA) を導入します。図 3 は、このアプローチを示しています。 I-JEPA の背後にある考え方は、抽象表現空間で欠落している情報を予測することです。たとえば、コンテキスト パッチが与えられた場合、同じ画像内の異なるターゲット パッチの表現を予測します。ターゲット表現は学習されたターゲット エンコーダ ネットワークによって計算されます。
ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は不必要なピクセルレベルの詳細を排除する可能性がある抽象的な予測ターゲットを利用するため、モデルはより多くの意味論的な特徴を学習します。 I-JEPA がセマンティック表現を生成するように導くもう 1 つの中心的な設計上の選択は、提案されているマルチブロック マスキング戦略です。具体的には、この論文は、画像内の (十分に大きなスケールの) 複数のターゲット パッチを予測するために、情報を提供する (空間的に分散された) コンテキスト パッチを使用することの重要性を示しています。 書き換えられたコンテンツ: ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は抽象的な予測ターゲットを利用し、不要なピクセルレベルの詳細を排除する可能性があるため、モデルがより多くの意味論的な特徴を学習できるようになります。 I-JEPA のもう 1 つの中心的な設計選択は、意味表現を生成するためにマルチブロック マスキング戦略を採用することです。具体的には、この論文は、画像内の (十分に大規模な) 複数のターゲット パッチを予測するために、有益な (空間的に分散された) コンテキスト パッチを使用することの重要性を示しています。手作りのビュー拡張機能を使用せずに、強力な既製のセマンティック表現を実現します (図 1)。 I-JEPA は、ImageNet-1K 線形検出、半教師あり 1% ImageNet-1K、およびセマンティック転送タスクにおける MAE などのピクセル再構成手法よりも優れた性能を発揮します。
I-JEPA は、セマンティック タスクに関するビュー不変の事前トレーニング手法と競合し、オブジェクトのカウントや深さの予測などの低レベルのビジョン タスクで優れたパフォーマンスを実現します。より単純なモデルとそれほど厳密ではない誘導バイアスを使用することにより、I-JEPA はより幅広いタスクに適用できます。 I-JEPA は拡張性と効率性にも優れています。 ImageNet での ViT-H/14 の事前トレーニングには約 2400 GPU 時間かかります。これは、iBOT で事前トレーニングされた ViTB/16 より 50% 高速で、MAE で事前トレーニングされた ViT-L/16 より 140% 高速です。表現空間での予測により、自己教師あり事前トレーニングに必要な総計算量が大幅に削減されます。自己教師あり学習は、システムが入力間の関係を捕捉することを学習する表現学習の方法です。この目標は、エネルギーベース モデル (EBM) のフレームワークを使用して簡単に説明できます。自己監視の目標は、互換性のない入力に高エネルギーを割り当て、互換性のある入力に低エネルギーを割り当てることです。多くの既存の生成的および非生成的自己教師あり学習手法は実際にこのフレームワークに変換できます; 書き換え後の図 2
を参照してください: Joint-Embedding Architectures は不変性に基づく事前トレーニング手法であり、使用できます。 EBM フレームワークで強制変換を実行する方法については、図 2a を参照してください。結合埋め込みアーキテクチャの学習目標は、互換性のある入力 x と y が同様の埋め込みを出力し、互換性のない入力が異なる埋め込みを出力するようにすることです。画像ベースの事前トレーニングでは、通常、同じ入力画像に手作りのデータ拡張をランダムに適用することによって、互換性のある x と y のペアが構築されます。JEA の主な課題は、エネルギーの状況が平坦である (つまり、エンコーダ) 場合の表現の崩壊です。入力に関係なく一定の出力を生成します)。ここ数年、表現の崩壊を防ぐためのいくつかの方法が研究されてきました。たとえば、負の例の埋め込みを明示的にプッシュする対比損失、埋め込みの情報の冗長性を最小限に抑える非対比損失、平均埋め込みエントロピーを最大化するクラスタリングベースの方法などです。 。崩壊を避けるために、x エンコーダーと y エンコーダーの間で非対称のアーキテクチャ設計を使用するヒューリスティックな方法もいくつかあります。生成的なアーキテクチャ。再構成ベースの自己教師あり学習手法は、生成アーキテクチャを使用して EBM フレームワークにキャストすることもできます。図 2b
を参照してください。生成アーキテクチャは、追加の A デコーダ ネットワーク (おそらく潜在的な)変数 z を使用して、再構成を容易にします。画像ベースの事前トレーニングでは、コンピューター ビジョンにおける一般的なアプローチは、マスクを使用して互換性のある x、y ペアを生成することです。ここで、x は画像 y のコピーですが、一部のパッチはマスクされています。条件変数 z は、再構成される画像パッチのデコーダを指定する (おそらく学習可能な) マスクと位置マーカーのセットに対応します。 z の情報容量が信号 y よりも小さい限り、これらのアーキテクチャは表現の崩壊に焦点を当てません。
ジョイント埋め込み予測アーキテクチャ。図 2c に示すように、結合埋め込み予測アーキテクチャは概念的には生成アーキテクチャと似ていますが、重要な違いは、損失関数が入力空間ではなく埋め込み空間に適用されることです。 JEPA は、予測を容易にする追加の (潜在的な) 変数 z の予測ネットワークを使用して、互換性のある信号 x から信号 y の埋め込みを予測する方法を学習します。提案された I-JEPA は、マスクを使用した画像のコンテキストでこのアーキテクチャのインスタンス化を提供します (図 3 を参照)。共同埋め込みアーキテクチャとは対照的に、JEPA は、一連の手作りのデータ拡張に対して不変な表現を求めるのではなく、追加情報の Z 条件が存在する場合に相互に予測する表現を求めます。ただし、共同埋め込みアーキテクチャと同様に、表現の崩壊も JEPA の懸念事項です。この論文では、x エンコーダと y エンコーダの間の非対称アーキテクチャを利用して、I-JEPA での表現の崩壊を回避しています。
3. 方法の紹介
この論文では、図 3 に示すように、提案されている画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) について説明します。 。全体的な目標は次のとおりです。コンテキスト パッチが与えられた場合に、同じ画像内の異なるターゲット パッチの表現を予測します。この論文では、コンテキスト エンコーダー、ターゲット エンコーダー、および予測子として Visual Transformer (ViT) アーキテクチャを使用しています。 ViT は Transformer レイヤーのスタックで構成され、各レイヤーはセルフアテンション操作と完全に接続された MLP で構成されます。この論文のエンコーダ/プレディクタ アーキテクチャは、生成マスク オートエンコーダ (MAE) アプローチを彷彿とさせます。ただし、重要な違いは、I-JEPA メソッドは非生成的であり、予測は表現空間で行われることです。
画像分類
I-JEPA が手作りのデータ拡張に依存せずに高レベルの表現を学習することを実証するために、この論文では線形検出と部分微調整プロトコルを使用したさまざまな画像分類タスクの結果を報告しています。このセクションでは、この論文では、ImageNet-1K データセットで事前トレーニングされた自己教師ありモデルについて考察します。事前トレーニングと評価の実施の詳細については、付録 A を参照してください。すべての I-JEPA モデルは、特に明記されていない限り、解像度 224×224 でトレーニングされます。
ImageNet-1K. 表 1 は、一般的な ImageNet-1K 線形評価ベンチマークのパフォーマンスを示しています。自己教師ありの事前トレーニングの後、モデルの重みが固定され、完全な ImageNet-1K トレーニング セットを使用して線形分類器がその上でトレーニングされます。一般的なマスク オートエンコーダ (MAE) や data2vec 手法と比較して、同様にトレーニング前の大規模な手作りデータ拡張に依存しないことから、I-JEPA はより少ない計算量で線形検出パフォーマンスを大幅に向上させることが論文ではわかります。さらに、I-JEPA は規模の恩恵を受けています。解像度 448 でトレーニングされた ViT-H/16 は、追加の手動データ拡張を必要とせずに、iBOT などのビュー不変メソッドのパフォーマンスに匹敵します。
#サンプル サイズが小さい ImageNet-1K。表 2 は、1% ImageNet ベンチマークでのパフォーマンスを示しています。これらの方法では、ImageNet ラベルの 1% のみを使用し、カテゴリごとに約 12 または 13 個の画像を使用して、ImageNet 分類用の事前トレーニングされたモデルを利用します。モデルは、各方法に最適なものに応じて、微調整または線形プローブによって調整されます。同様のエンコーダ アーキテクチャを使用すると、I-JEPA は MAE よりも優れたパフォーマンスを発揮し、必要な事前トレーニング エポックが少なくなります。 ViTH/14 アーキテクチャを使用した I-JEPA のパフォーマンスは、データ 2vec を使用して事前トレーニングされた ViT-L/16 に匹敵しますが、計算負荷は大幅に低くなります。画像入力解像度を高めることにより、I-JEPA は、共同埋め込み手法や、MSN、DINO、iBOT転移学習などのトレーニング前の追加の手作りデータ拡張手法を活用するなど、以前の手法よりも優れたパフォーマンスを発揮します。は、線形プローブを使用したさまざまな下流画像分類タスクのパフォーマンスを示しています。 I-JEPA は、拡張を使用しない以前の手法 (MAE および Data2vec) を大幅に上回り、トレーニング前に手作りされた視点不変を活用する最良の手法との差を縮め、CIFAR100 や Place205 DINO で人気のある手法をも上回ります。6. スケーラビリティ
書き換えた内容は以下の通りです: 以前の手法と比較すると、I-JEPA はモデル効率の点で高いスケーラビリティを備えています。図 5 は、ImageNet-1K の 1% での GPU 時間評価の半教師あり結果を示しています。 I-JEPA は、以前の方法よりも必要な計算量が少なく、手動のデータ拡張に依存せずに強力なパフォーマンスを実現します。ピクセルをターゲットとして直接使用する MAE などの再構築ベースの方法と比較して、I-JEPA は表現空間でターゲットを計算することにより追加のオーバーヘッドを導入します (反復ごとに約 7% 遅くなります)データ サイズのスケーリング。この論文では、I-JEPA が大規模なデータセットでの事前トレーニングから恩恵を受けることもわかりました。表 5 は、事前トレーニング データセット (IN1K 対 IN22K) のサイズを増やした場合の、セマンティック タスクと低レベル タスクでの転移学習のパフォーマンスを示しています。これらの概念的に異なるタスクでの転移学習のパフォーマンスは、より大規模で多様なデータセットで事前トレーニングすると向上します。モデルのサイズをスケーリングします。表 5 は、IN22K で事前トレーニングした場合、I-JEPA がモデル サイズを大きくすることでメリットが得られることも示しています。 ViT-H/14 モデルと比較して、ViT-G/16 での事前トレーニングにより、Place205 や INat18 などの画像分類タスクにおけるダウンストリームのパフォーマンスが大幅に向上します。 ViTG/16 モデルは、低レベルの下流タスクのパフォーマンスを向上させません。 ViT-G/16 はより大きな入力パッチ サイズを使用するため、ローカル予測タスクに悪影響を与える可能性があります。
7. 予測器の視覚化は書き換え可能です
I-JEPA の予測器の機能は、コンテキスト エンコーダーの出力を取得し、それを位置でマスクすることです。マスク トークンは、マスク トークンで指定された位置にあるターゲット ブロックの表現を予測する条件です。 1 つの疑問は、位置マスク トークンに条件付けされた予測子がターゲット内の位置の不確実性を正しく捕捉することを学習しているかどうかです。この質問を定性的に研究するために、予測子の出力を視覚化します。この論文では、事前トレーニング後、コンテキスト エンコーダーと予測子の重みをフリーズし、RCDM フレームワークに従ってデコーダーをトレーニングして、予測子出力の平均プールをピクセル空間にマッピングします。図 6 は、さまざまなランダム シードのデコーダ出力を示しています。サンプル間で共通する特徴は、平均プールされた予測子表現に含まれる情報を表します。 I-JEPA 予測器は、位置の不確実性を正確に捕捉し、正しい姿勢で高レベルのオブジェクト部分 (鳥の後ろや車の上部など) を生成します。異なるサンプルの異なる質量は、表現に含まれていない情報を表します。この場合、I-JEPA 予測子は正確な低レベルの詳細と背景情報を破棄します。
8. アブレーションの重要性
表現空間での予測。表 7 は、ピクセル空間と表現空間で 1% ImageNet-1K を計算した場合のローショットのパフォーマンスを比較しています。この論文は、I-JEPA の重要なコンポーネントは、損失が表現空間内で完全に計算され、ターゲット エンコーダが無関係なピクセル レベルの詳細を排除する抽象的な予測ターゲットを生成できるようにすることであると推測しています。表 7 から、ピクセル空間での予測は線形検出パフォーマンスの大幅な低下につながることが明らかです。
書き直された内容: 表 8 のマスキング戦略が変更されました。この研究では、図 4 に示すように、I-JEPA の事前トレーニング プロセスで提案されたマルチブロック マスク戦略のターゲット ブロックの数を減らし、コンテキストとターゲット ブロックのスケールを調整します。さまざまなマルチブロック設定を使用して I-JEPA を 300 エポックでトレーニングし、線形プローブを使用して 1% ImageNet-1K ベンチマークでパフォーマンス比較を実行しました。要約すると、情報を提供する (空間的に分散された) コンテキスト パッチと組み合わせて、いくつかの比較的大きな (セマンティックな) ターゲット パッチを予測することが非常に重要であることがわかりました。
表 6 も同様のパフォーマンスを示します。他のマスキング戦略と比較した場合のアブレーション。この論文では、画像が 4 つの大きな象限に分割され、1 つの象限をコンテキストとして使用して他の 3 つの象限を予測することを目的とするラスター化マスキング戦略と比較しています。この論文では、再構築ベースの手法で一般的に使用される従来のブロック マスキング戦略とランダム マスキング戦略も比較しています。ブロック マスキングでは、ターゲットは単一の画像パッチであり、コンテキストは画像の補完です。ランダム マスキングでは、ターゲットはランダムな (おそらく不連続な) 画像パッチのセットであり、コンテキストは画像を補うものです。考慮されたすべてのマスキング戦略において、コンテキスト ブロックとターゲット ブロックの間に重複がないことに注意してください。提案されたマルチブロック マスキング戦略は、I-JEPA が意味表現を学習するための鍵となります。従来のブロック マスクに切り替えても、ImageNet のパフォーマンスは 24% 以上低下します。
9. 結論 論文
は、意味論的な画像表現を学習するための I-JEPA と呼ばれる方法を提案しています。この方法は、手動で作成されたデータ拡張に依存しません。研究によれば、表現空間で予測を行うことにより、I-JEPA はピクセル再構築手法よりも速く収束し、高い意味レベルの表現を学習できることが示されています。ビューの不変性に基づく方法と比較して、I-JEPA は、手作りのビュー拡張に依存せずに、共同埋め込みアーキテクチャを使用して一般表現を学習するパスを強調しています。
付録原文を参照、元のリンク: https://arxiv .org/abs/2301.08243
以上が[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。