Transformer に基づく基本的なビジュアル モデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に強力なパフォーマンスを示しており、自己教師ありトレーニング後にセマンティック セグメンテーション属性を備えた DINO などのモデルが登場しました。
視覚的な Transformer モデルが、教師あり分類用にトレーニングされた後に同様の創発機能を持たないのは奇妙です
最近、Ma Yi 教授のチームは、 Transformer アーキテクチャに基づくモデルを研究し、創発的なセグメンテーション能力が単に複雑な自己教師あり学習メカニズムの結果であるのか、それともモデル アーキテクチャを適切に設計することでより一般的な条件下でも同じパフォーマンスを達成できるのかを調査しました。
# コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE##クリックしてください論文を表示するには次のリンクをクリックしてください: https://arxiv.org/abs/2308.16271
多数の実験の後、研究者らはホワイトボックス Transformer モデルを使用すると次のことを証明しました。 CRATE、その設計 データ分布の低次元構造を明示的にモデル化し、追跡し、最小限の教師付きトレーニング レシピで全体レベルおよび部分レベルのセグメンテーション プロパティを明らかにします。
階層的な詳細な分析を通じて、 get 重要な結論が導き出されます。つまり、創発的なプロパティは、ホワイト ボックス ネットワークの設計数学的機能を強く裏付けています。この結果に基づいて、高性能であるだけでなく完全に数学的に解釈可能なホワイトボックス基本モデルを設計する方法を提案しました。
Ma Yi 教授は次のようにも述べています。学習は徐々に経験的な設計から理論的な指導へと移行していきます。
ホワイトボックス CRATE の創発プロパティ
DINO のセグメンテーション創発能力とは、DINO モデルの能力を指します。プロセス言語タスク このとき、入力文をより小さなフラグメントに分割し、各フラグメントを独立して処理できます。この機能により、DINO モデルは複雑な文構造と意味情報をよりよく理解できるようになり、それによって自然言語処理の分野でのパフォーマンスが向上します
インテリジェント システムにおける表現学習を目的としています。世界の高次元のマルチモーダル感覚データ (画像、言語、音声) を、その基本的な低次元構造を維持しながらよりコンパクトな形式に変換して、効率的な認識 (分類など) とグループ化 (セグメンテーションなど) および追跡を実現します。 。
#ディープ ラーニング モデルのトレーニングでは、通常、大規模なデータを入力して自己教師ありの方法で学習する、データ駆動型のアプローチが採用されます
基本的な視覚モデルの中でも、DINO モデルは驚くべき創発能力を示し、ViT は教師付きセグメンテーション トレーニングがなくても明示的なセマンティック セグメンテーション情報を認識できます。自己監視型 Transformer アーキテクチャを備えた DINO モデルは、この点で優れたパフォーマンスを発揮します。
フォローアップ作業では、このセグメンテーション情報を DINO モデルで利用し、次のような下流タスクで実行する方法が研究されました。セグメンテーションや検出などにより最先端のパフォーマンスが達成されており、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景の区別などの視覚入力の顕著性情報と強く関連していることも証明された研究もあります。背景とオブジェクトの境界により、画像のセグメンテーションやその他のタスクのパフォーマンスが向上します。
#セグメンテーション属性を強調するために、DINO はトレーニング プロセス中に自己教師あり学習、知識の蒸留、および加重平均法を巧みに組み合わせる必要があります。 # #DINO で導入された各コンポーネントがセグメンテーション マスクの創発に必須であるかどうかは不明ですが、DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクで学習された通常の教師あり ViT モデルでは、セグメンテーション創発の動作は観察されませんでした。
CRATEの登場
DINOの成功事例に基づいて、研究者たちは複雑な自己教師ありの研究を目指しています学習 Transformer のようなビジュアル モデルで創発的なプロパティを取得するにはパイプラインが必要ですか?
研究者らは、Transformer モデルのセグメンテーション プロパティを促進する有望な方法は、表現学習も表す入力データ構造を考慮して Transformer モデル アーキテクチャを設計することであると考えています。古典的な手法と最新のデータ駆動型深層学習フレームワーク。
現在主流の Transformer モデルと比較すると、この設計手法はホワイトボックス Transformer モデルとも言えます。
Ma Yi 教授のグループの以前の研究に基づいて、研究者らはホワイト ボックス アーキテクチャを備えた CRATE モデルで広範な実験を実施し、CRATE のホワイト ボックス設計が自己のセグメンテーション属性の出現の理由であることを証明しました。 -注目グラフ。
言い換える必要があるのは次のとおりです: 定性的評価
研究者は [CLS] トークンベースの注意を使用します。グラフ手法を使用してモデルを説明および視覚化して、CRATE のクエリ-キー-値の行列がすべて同じであることを確認してください
#CRATEセルフアテンションマップは入力画像のセマンティクスに対応しており、モデルの内部ネットワークは各画像に対して明確なセマンティックセグメンテーションを実行し、DINOモデルと同様の効果を実現します。
通常の ViT は、教師付き分類タスクでトレーニングした場合、同様のセグメンテーション プロパティを表示しません
以前の内容に基づくブロックごとの深い特徴の視覚画像学習に関する研究、研究者は CRATE および ViT モデルの深いトークン表現に関する主成分分析 (PCA) 研究を実施しました
CRATE はセグメンテーション監視トレーニングなしでも画像内のオブジェクトの境界をキャプチャできることがわかります。
# さらに、主成分は、馬の脚に対応する赤いチャネルなど、トークンとオブジェクト間の類似部分の特徴の位置合わせも示します。 #教師あり ViT モデルの PCA 可視化構造の程度は非常に低いです。
定量的評価
研究者らは、既存のセグメンテーションを使用して CRATE 創発セグメンテーション プロパティとオブジェクト検出テクノロジーを評価しました
セルフ アテンション マップからわかるように、CRATE は明確な境界を持つオブジェクト レベルのセマンティクスを明示的にキャプチャします。セグメンテーションの品質を定量的に測定するために、研究者らはセルフ アテンションを使用してアテンション マップはセグメンテーション マスクを生成し、標準の mIoU (平均交差対和集合比) を実際のマスクと比較します。
実験結果から、ビジュアルおよび mIOU スコアの点で CRATE が ViT よりも大幅に優れていることがわかります。これは、内部表現がCRATE の機能は、セグメンテーション マスクの生成に役立ちます。タスクをより効率的にマスクします。
オブジェクト検出と詳細なセグメンテーション
CRATE Information によって取得された豊富なセマンティクスをさらに検証および評価するために、研究者らは、効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動による注釈を付けずに自動化された評価モデルを取得し、トークンに基づいて画像からよりきめの細かいセグメンテーションを抽出できます。 CRATE によって学習された表現。
COCO val2017 のセグメンテーション結果からわかるように、CRATE の内部表現は次のとおりです。検出とセグメンテーション インデックスは教師あり ViT よりも優れていますが、教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーション マスクをまったく生成することさえできません。
#CRATE のセグメンテーション機能のホワイト ボックス分析CRATE における深さの役割
##CRATE の各層の設計は、同じ概念的な目的に従っています。つまり、スパース レートの削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換することです。 書き換え後: CRATE の各レベルの設計は同じ哲学に従います: スパース率の削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換します
CRATE の出現を想定しますセマンティック セグメンテーション機能の特徴は、「Z における同様のセマンティック カテゴリに属するトークンのクラスターを表現する」ことに似ています。CRATE のセグメンテーション パフォーマンスは、深さが増すにつれて向上することが期待されます。これをテストするために、研究者らは、MaskCut パイプラインを使用して、さまざまなレイヤーの内部表現にわたるセグメンテーションのパフォーマンスを定量的に評価し、さらに PCA 視覚化を適用して、セグメンテーションがどのように深度で現れるかを理解しました。
実験結果から、より深い層からの表現を使用するとセグメンテーション スコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。 対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、そのセグメンテーション スコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE からの深い抽出が示されています。表現は徐々に前景オブジェクトにより注意を払い、テクスチャ レベルの詳細をキャプチャできるようになります。 CRATE での溶解実験 CRATE と MLP のアテンション ブロック (MSSA)ブロック (ISTA) は ViT のアテンション ブロックとは異なります CRATE の創発セグメンテーション特性に対する各コンポーネントの影響を研究するために、研究者は 3 つの CRATE バリアントを選択しました: CRATE、CRATE- MHSA、クレート-MLP。これらのバリアントは、それぞれ ViT のアテンション ブロック (MHSA) と MLP ブロックを表します。 研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、次に粗セグメンテーション評価を適用し、異なるモデルのパフォーマンスを定量的に比較するためのマスク セグメンテーション評価。 実験結果によると、CRATE はすべてのタスクにおいて他のモデル アーキテクチャよりも大幅に優れています。 MHSA と MSSA のアーキテクチャ上の違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT の粗セグメンテーション パフォーマンス (つまり、VOC セグメント) が大幅に向上する可能性があることは注目に値します。これは、ホワイト ボックス デザインの有効性をさらに証明しています。 書き直す必要がある内容は次のとおりです: ヘッダーの意味属性の識別に注意してください [CLS] トークンと画像ブロック トークン間のセルフ アテンション マップでは、明確なセグメンテーション マスクが確認できます。直観によると、各アテンション ヘッドは、画像ブロックのいくつかの特徴をキャプチャできるはずです。データ。 研究者らは、最初に画像を CRATE モデルに入力し、次に人間に検査して意味的な意味を持つと思われる 4 つのアテンション ヘッドを選択させ、次にこれらのアテンション ヘッドを他の入力に使用しました。画像 頭上の自己注意マップの視覚化。 観察によると、各アテンションヘッドはオブジェクトの異なる部分、さらには異なるセマンティクスをキャプチャできることがわかります。たとえば、最初の列のアテンション ヘッドはさまざまな動物の脚をキャプチャでき、最後の列のアテンション ヘッドは耳と頭をキャプチャできます。 変形可能なため、この機能は視覚入力を部品全体の階層に解析することは、変形可能な部品モデルとカプセル ネットワークのリリース以来、認識アーキテクチャの目標であり、ホワイト ボックス設計の CRATE モデルにもこの機能があります。
以上がMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。