[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャ
1. 簡単な紹介
この論文では、手作りのデータ拡張に依存せずに、高度にセマンティックな画像表現を学習する方法を示します。この論文では、画像からの自己教師あり学習のための非生成アプローチである画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) を紹介します。 I-JEPA の背後にある考え方は単純です。単一のコンテキスト パッチから、同じイメージ内の異なるターゲット パッチの表現を予測します。 I-JEPA がセマンティック表現を生成するように導く中心的な設計選択はマスキング戦略です。具体的には、(a) 画像内のいくつかのターゲット パッチを予測する、(b) 十分に大きなスケール (画像の 15% - 20) でサンプル ターゲット パッチをサンプルする%)、(c) 十分に豊富な (空間的に分散された) コンテキスト ブロックを使用することが重要です。この論文では、I-JEPA がビジュアル トランスフォーマーと組み合わせると拡張性が高いことが経験的にわかりました。たとえば、この論文では、32 個の A100 GPU を使用して ImageNet 上で ViT-Huge/16 を 38 時間でトレーニングし、線形分類からオブジェクトのカウントや深さの予測まで、さまざまなレベルの抽象化を必要とする幅広いタスクにわたって強力なダウンストリーム パフォーマンスを実現しています。
2. 研究の背景
コンピュータ ビジョンには、2 つの一般的な画像自己教師あり学習方法があります。
不変性に基づく方法と生成方法。不変ベースの事前トレーニング アプローチを通じてエンコーダーを最適化することにより、同じ画像の 2 つ以上のビューに対して同様の埋め込みを生成できます。通常、イメージ ビューは、ランダムなスケーリング、トリミング、カラー ディザリングなど、一連の手作りのデータ拡張手法を使用して構築されます。これらの事前トレーニング方法は、高度なセマンティック レベルの表現を生成できますが、同時に、一部の下流タスクや、異なるデータ分布を持つ事前トレーニング タスクに悪影響を与える可能性がある強いバイアスも導入します。認知学習理論では、生物システムにおける表現学習の背後にある推進メカニズムの 1 つは、感覚入力に対する反応を予測するために内部モデルを適応させる方法であると考えられています。この考え方は、入力の一部を削除または破損し、何が破損しているかを予測することを学習する自己教師あり生成手法の中心にあります。特に、マスクのノイズ除去方法は、入力のピクセルまたはトークン レベルからランダムなマスク パッチを再構成することによって表現を学習します。ビューインバリアント手法と比較して、マスクの事前トレーニング タスクに必要な事前知識は少なく、画像モダリティを超えて容易に一般化できます。ただし、結果として得られる表現は多くの場合、セマンティック レベルが低く、線形プローブや転送設定などの既製の評価における不変ベースの事前トレーニングが不足しており、セマンティック分類タスクの監視が制限されています。したがって、これらの方法の利点を最大限に活用するには、より洗練された適応メカニズム (エンドツーエンドの微調整など) が必要です。
この論文では、画像変換をエンコードするために追加の事前知識を使用せずに、自己教師あり表現の意味レベルを向上させる方法を検討します。この目的のために、この論文では画像結合埋め込み予測アーキテクチャ (I-JEPA) を導入します。図 3 は、このアプローチを示しています。 I-JEPA の背後にある考え方は、抽象表現空間で欠落している情報を予測することです。たとえば、コンテキスト パッチが与えられた場合、同じ画像内の異なるターゲット パッチの表現を予測します。ターゲット表現は学習されたターゲット エンコーダ ネットワークによって計算されます。
ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は不必要なピクセルレベルの詳細を排除する可能性がある抽象的な予測ターゲットを利用するため、モデルはより多くの意味論的な特徴を学習します。 I-JEPA がセマンティック表現を生成するように導くもう 1 つの中心的な設計上の選択は、提案されているマルチブロック マスキング戦略です。具体的には、この論文は、画像内の (十分に大きなスケールの) 複数のターゲット パッチを予測するために、情報を提供する (空間的に分散された) コンテキスト パッチを使用することの重要性を示しています。 書き換えられたコンテンツ: ピクセル/マーカー空間で予測する生成手法と比較して、I-JEPA は抽象的な予測ターゲットを利用し、不要なピクセルレベルの詳細を排除する可能性があるため、モデルがより多くの意味論的な特徴を学習できるようになります。 I-JEPA のもう 1 つの中心的な設計選択は、意味表現を生成するためにマルチブロック マスキング戦略を採用することです。具体的には、この論文は、画像内の (十分に大規模な) 複数のターゲット パッチを予測するために、有益な (空間的に分散された) コンテキスト パッチを使用することの重要性を示しています。手作りのビュー拡張機能を使用せずに、強力な既製のセマンティック表現を実現します (図 1)。 I-JEPA は、ImageNet-1K 線形検出、半教師あり 1% ImageNet-1K、およびセマンティック転送タスクにおける MAE などのピクセル再構成手法よりも優れた性能を発揮します。
I-JEPA は、セマンティック タスクに関するビュー不変の事前トレーニング手法と競合し、オブジェクトのカウントや深さの予測などの低レベルのビジョン タスクで優れたパフォーマンスを実現します。より単純なモデルとそれほど厳密ではない誘導バイアスを使用することにより、I-JEPA はより幅広いタスクに適用できます。 I-JEPA は拡張性と効率性にも優れています。 ImageNet での ViT-H/14 の事前トレーニングには約 2400 GPU 時間かかります。これは、iBOT で事前トレーニングされた ViTB/16 より 50% 高速で、MAE で事前トレーニングされた ViT-L/16 より 140% 高速です。表現空間での予測により、自己教師あり事前トレーニングに必要な総計算量が大幅に削減されます。自己教師あり学習は、システムが入力間の関係を捕捉することを学習する表現学習の方法です。この目標は、エネルギーベース モデル (EBM) のフレームワークを使用して簡単に説明できます。自己監視の目標は、互換性のない入力に高エネルギーを割り当て、互換性のある入力に低エネルギーを割り当てることです。多くの既存の生成的および非生成的自己教師あり学習手法は実際にこのフレームワークに変換できます; 書き換え後の図 2
を参照してください: Joint-Embedding Architectures は不変性に基づく事前トレーニング手法であり、使用できます。 EBM フレームワークで強制変換を実行する方法については、図 2a を参照してください。結合埋め込みアーキテクチャの学習目標は、互換性のある入力 x と y が同様の埋め込みを出力し、互換性のない入力が異なる埋め込みを出力するようにすることです。画像ベースの事前トレーニングでは、通常、同じ入力画像に手作りのデータ拡張をランダムに適用することによって、互換性のある x と y のペアが構築されます。JEA の主な課題は、エネルギーの状況が平坦である (つまり、エンコーダ) 場合の表現の崩壊です。入力に関係なく一定の出力を生成します)。ここ数年、表現の崩壊を防ぐためのいくつかの方法が研究されてきました。たとえば、負の例の埋め込みを明示的にプッシュする対比損失、埋め込みの情報の冗長性を最小限に抑える非対比損失、平均埋め込みエントロピーを最大化するクラスタリングベースの方法などです。 。崩壊を避けるために、x エンコーダーと y エンコーダーの間で非対称のアーキテクチャ設計を使用するヒューリスティックな方法もいくつかあります。生成的なアーキテクチャ。再構成ベースの自己教師あり学習手法は、生成アーキテクチャを使用して EBM フレームワークにキャストすることもできます。図 2b
を参照してください。生成アーキテクチャは、追加の A デコーダ ネットワーク (おそらく潜在的な)変数 z を使用して、再構成を容易にします。画像ベースの事前トレーニングでは、コンピューター ビジョンにおける一般的なアプローチは、マスクを使用して互換性のある x、y ペアを生成することです。ここで、x は画像 y のコピーですが、一部のパッチはマスクされています。条件変数 z は、再構成される画像パッチのデコーダを指定する (おそらく学習可能な) マスクと位置マーカーのセットに対応します。 z の情報容量が信号 y よりも小さい限り、これらのアーキテクチャは表現の崩壊に焦点を当てません。
ジョイント埋め込み予測アーキテクチャ。図 2c に示すように、結合埋め込み予測アーキテクチャは概念的には生成アーキテクチャと似ていますが、重要な違いは、損失関数が入力空間ではなく埋め込み空間に適用されることです。 JEPA は、予測を容易にする追加の (潜在的な) 変数 z の予測ネットワークを使用して、互換性のある信号 x から信号 y の埋め込みを予測する方法を学習します。提案された I-JEPA は、マスクを使用した画像のコンテキストでこのアーキテクチャのインスタンス化を提供します (図 3 を参照)。共同埋め込みアーキテクチャとは対照的に、JEPA は、一連の手作りのデータ拡張に対して不変な表現を求めるのではなく、追加情報の Z 条件が存在する場合に相互に予測する表現を求めます。ただし、共同埋め込みアーキテクチャと同様に、表現の崩壊も JEPA の懸念事項です。この論文では、x エンコーダと y エンコーダの間の非対称アーキテクチャを利用して、I-JEPA での表現の崩壊を回避しています。
3. 方法の紹介
この論文では、図 3 に示すように、提案されている画像ベースの結合埋め込み予測アーキテクチャ (I-JEPA) について説明します。 。全体的な目標は次のとおりです。コンテキスト パッチが与えられた場合に、同じ画像内の異なるターゲット パッチの表現を予測します。この論文では、コンテキスト エンコーダー、ターゲット エンコーダー、および予測子として Visual Transformer (ViT) アーキテクチャを使用しています。 ViT は Transformer レイヤーのスタックで構成され、各レイヤーはセルフアテンション操作と完全に接続された MLP で構成されます。この論文のエンコーダ/プレディクタ アーキテクチャは、生成マスク オートエンコーダ (MAE) アプローチを彷彿とさせます。ただし、重要な違いは、I-JEPA メソッドは非生成的であり、予測は表現空間で行われることです。
画像分類
I-JEPA が手作りのデータ拡張に依存せずに高レベルの表現を学習することを実証するために、この論文では線形検出と部分微調整プロトコルを使用したさまざまな画像分類タスクの結果を報告しています。このセクションでは、この論文では、ImageNet-1K データセットで事前トレーニングされた自己教師ありモデルについて考察します。事前トレーニングと評価の実施の詳細については、付録 A を参照してください。すべての I-JEPA モデルは、特に明記されていない限り、解像度 224×224 でトレーニングされます。
ImageNet-1K. 表 1 は、一般的な ImageNet-1K 線形評価ベンチマークのパフォーマンスを示しています。自己教師ありの事前トレーニングの後、モデルの重みが固定され、完全な ImageNet-1K トレーニング セットを使用して線形分類器がその上でトレーニングされます。一般的なマスク オートエンコーダ (MAE) や data2vec 手法と比較して、同様にトレーニング前の大規模な手作りデータ拡張に依存しないことから、I-JEPA はより少ない計算量で線形検出パフォーマンスを大幅に向上させることが論文ではわかります。さらに、I-JEPA は規模の恩恵を受けています。解像度 448 でトレーニングされた ViT-H/16 は、追加の手動データ拡張を必要とせずに、iBOT などのビュー不変メソッドのパフォーマンスに匹敵します。
6. スケーラビリティ
データ サイズのスケーリング。この論文では、I-JEPA が大規模なデータセットでの事前トレーニングから恩恵を受けることもわかりました。表 5 は、事前トレーニング データセット (IN1K 対 IN22K) のサイズを増やした場合の、セマンティック タスクと低レベル タスクでの転移学習のパフォーマンスを示しています。これらの概念的に異なるタスクでの転移学習のパフォーマンスは、より大規模で多様なデータセットで事前トレーニングすると向上します。モデルのサイズをスケーリングします。表 5 は、IN22K で事前トレーニングした場合、I-JEPA がモデル サイズを大きくすることでメリットが得られることも示しています。 ViT-H/14 モデルと比較して、ViT-G/16 での事前トレーニングにより、Place205 や INat18 などの画像分類タスクにおけるダウンストリームのパフォーマンスが大幅に向上します。 ViTG/16 モデルは、低レベルの下流タスクのパフォーマンスを向上させません。 ViT-G/16 はより大きな入力パッチ サイズを使用するため、ローカル予測タスクに悪影響を与える可能性があります。
7. 予測器の視覚化は書き換え可能です
I-JEPA の予測器の機能は、コンテキスト エンコーダーの出力を取得し、それを位置でマスクすることです。マスク トークンは、マスク トークンで指定された位置にあるターゲット ブロックの表現を予測する条件です。 1 つの疑問は、位置マスク トークンに条件付けされた予測子がターゲット内の位置の不確実性を正しく捕捉することを学習しているかどうかです。この質問を定性的に研究するために、予測子の出力を視覚化します。この論文では、事前トレーニング後、コンテキスト エンコーダーと予測子の重みをフリーズし、RCDM フレームワークに従ってデコーダーをトレーニングして、予測子出力の平均プールをピクセル空間にマッピングします。図 6 は、さまざまなランダム シードのデコーダ出力を示しています。サンプル間で共通する特徴は、平均プールされた予測子表現に含まれる情報を表します。 I-JEPA 予測器は、位置の不確実性を正確に捕捉し、正しい姿勢で高レベルのオブジェクト部分 (鳥の後ろや車の上部など) を生成します。異なるサンプルの異なる質量は、表現に含まれていない情報を表します。この場合、I-JEPA 予測子は正確な低レベルの詳細と背景情報を破棄します。
8. アブレーションの重要性
表現空間での予測。表 7 は、ピクセル空間と表現空間で 1% ImageNet-1K を計算した場合のローショットのパフォーマンスを比較しています。この論文は、I-JEPA の重要なコンポーネントは、損失が表現空間内で完全に計算され、ターゲット エンコーダが無関係なピクセル レベルの詳細を排除する抽象的な予測ターゲットを生成できるようにすることであると推測しています。表 7 から、ピクセル空間での予測は線形検出パフォーマンスの大幅な低下につながることが明らかです。
書き直された内容: 表 8 のマスキング戦略が変更されました。この研究では、図 4 に示すように、I-JEPA の事前トレーニング プロセスで提案されたマルチブロック マスク戦略のターゲット ブロックの数を減らし、コンテキストとターゲット ブロックのスケールを調整します。さまざまなマルチブロック設定を使用して I-JEPA を 300 エポックでトレーニングし、線形プローブを使用して 1% ImageNet-1K ベンチマークでパフォーマンス比較を実行しました。要約すると、情報を提供する (空間的に分散された) コンテキスト パッチと組み合わせて、いくつかの比較的大きな (セマンティックな) ターゲット パッチを予測することが非常に重要であることがわかりました。
表 6 も同様のパフォーマンスを示します。他のマスキング戦略と比較した場合のアブレーション。この論文では、画像が 4 つの大きな象限に分割され、1 つの象限をコンテキストとして使用して他の 3 つの象限を予測することを目的とするラスター化マスキング戦略と比較しています。この論文では、再構築ベースの手法で一般的に使用される従来のブロック マスキング戦略とランダム マスキング戦略も比較しています。ブロック マスキングでは、ターゲットは単一の画像パッチであり、コンテキストは画像の補完です。ランダム マスキングでは、ターゲットはランダムな (おそらく不連続な) 画像パッチのセットであり、コンテキストは画像を補うものです。考慮されたすべてのマスキング戦略において、コンテキスト ブロックとターゲット ブロックの間に重複がないことに注意してください。提案されたマルチブロック マスキング戦略は、I-JEPA が意味表現を学習するための鍵となります。従来のブロック マスクに切り替えても、ImageNet のパフォーマンスは 24% 以上低下します。
9. 結論 論文
は、意味論的な画像表現を学習するための I-JEPA と呼ばれる方法を提案しています。この方法は、手動で作成されたデータ拡張に依存しません。研究によれば、表現空間で予測を行うことにより、I-JEPA はピクセル再構築手法よりも速く収束し、高い意味レベルの表現を学習できることが示されています。ビューの不変性に基づく方法と比較して、I-JEPA は、手作りのビュー拡張に依存せずに、共同埋め込みアーキテクチャを使用して一般表現を学習するパスを強調しています。
付録原文を参照、元のリンク: https://arxiv .org/abs/2301.08243
以上が[論文解釈] グラフベースの自己教師あり学習結合埋め込み予測アーキテクチャの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
