Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?-AI-php.cn

ホームページ

テクノロジー周辺機器

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 14, 2023 pm 02:45 PM

モデル監督する

Transformer に基づく基本的なビジュアルモデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に強力なパフォーマンスを示しており、自己教師ありトレーニング後にセマンティックセグメンテーション属性を備えた DINO などのモデルが登場しました。

視覚的な Transformer モデルが、教師あり分類用にトレーニングされた後に同様の創発機能を持たないのは奇妙です

最近、Ma Yi 教授のチームは、 Transformer アーキテクチャに基づくモデルを研究し、創発的なセグメンテーション能力が単に複雑な自己教師あり学習メカニズムの結果であるのか、それともモデルアーキテクチャを適切に設計することでより一般的な条件下でも同じパフォーマンスを達成できるのかを調査しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

# コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

##クリックしてください論文を表示するには次のリンクをクリックしてください: https://arxiv.org/abs/2308.16271

多数の実験の後、研究者らはホワイトボックス Transformer モデルを使用すると次のことを証明しました。 CRATE、その設計データ分布の低次元構造を明示的にモデル化し、追跡し、最小限の教師付きトレーニングレシピで全体レベルおよび部分レベルのセグメンテーションプロパティを明らかにします。

階層的な詳細な分析を通じて、 get 重要な結論が導き出されます。つまり、創発的なプロパティは、ホワイトボックスネットワークの設計数学的機能を強く裏付けています。この結果に基づいて、高性能であるだけでなく完全に数学的に解釈可能なホワイトボックス基本モデルを設計する方法を提案しました。

Ma Yi 教授は次のようにも述べています。学習は徐々に経験的な設計から理論的な指導へと移行していきます。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか? ホワイトボックス CRATE の創発プロパティ

DINO のセグメンテーション創発能力とは、DINO モデルの能力を指します。プロセス言語タスクこのとき、入力文をより小さなフラグメントに分割し、各フラグメントを独立して処理できます。この機能により、DINO モデルは複雑な文構造と意味情報をよりよく理解できるようになり、それによって自然言語処理の分野でのパフォーマンスが向上します

インテリジェントシステムにおける表現学習を目的としています。世界の高次元のマルチモーダル感覚データ (画像、言語、音声) を、その基本的な低次元構造を維持しながらよりコンパクトな形式に変換して、効率的な認識 (分類など) とグループ化 (セグメンテーションなど) および追跡を実現します。。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか? #ディープラーニングモデルのトレーニングでは、通常、大規模なデータを入力して自己教師ありの方法で学習する、データ駆動型のアプローチが採用されます

基本的な視覚モデルの中でも、DINO モデルは驚くべき創発能力を示し、ViT は教師付きセグメンテーショントレーニングがなくても明示的なセマンティックセグメンテーション情報を認識できます。自己監視型 Transformer アーキテクチャを備えた DINO モデルは、この点で優れたパフォーマンスを発揮します。

フォローアップ作業では、このセグメンテーション情報を DINO モデルで利用し、次のような下流タスクで実行する方法が研究されました。セグメンテーションや検出などにより最先端のパフォーマンスが達成されており、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景の区別などの視覚入力の顕著性情報と強く関連していることも証明された研究もあります。背景とオブジェクトの境界により、画像のセグメンテーションやその他のタスクのパフォーマンスが向上します。

#セグメンテーション属性を強調するために、DINO はトレーニングプロセス中に自己教師あり学習、知識の蒸留、および加重平均法を巧みに組み合わせる必要があります。 # #DINO で導入された各コンポーネントがセグメンテーションマスクの創発に必須であるかどうかは不明ですが、DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクで学習された通常の教師あり ViT モデルでは、セグメンテーション創発の動作は観察されませんでした。

CRATEの登場

DINOの成功事例に基づいて、研究者たちは複雑な自己教師ありの研究を目指しています学習 Transformer のようなビジュアルモデルで創発的なプロパティを取得するにはパイプラインが必要ですか?

研究者らは、Transformer モデルのセグメンテーションプロパティを促進する有望な方法は、表現学習も表す入力データ構造を考慮して Transformer モデルアーキテクチャを設計することであると考えています。古典的な手法と最新のデータ駆動型深層学習フレームワーク。

現在主流の Transformer モデルと比較すると、この設計手法はホワイトボックス Transformer モデルとも言えます。

Ma Yi 教授のグループの以前の研究に基づいて、研究者らはホワイトボックスアーキテクチャを備えた CRATE モデルで広範な実験を実施し、CRATE のホワイトボックス設計が自己のセグメンテーション属性の出現の理由であることを証明しました。 -注目グラフ。

言い換える必要があるのは次のとおりです: 定性的評価

研究者は [CLS] トークンベースの注意を使用します。グラフ手法を使用してモデルを説明および視覚化して、CRATE のクエリ-キー-値の行列がすべて同じであることを確認してください

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATEセルフアテンションマップは入力画像のセマンティクスに対応しており、モデルの内部ネットワークは各画像に対して明確なセマンティックセグメンテーションを実行し、DINOモデルと同様の効果を実現します。

通常の ViT は、教師付き分類タスクでトレーニングした場合、同様のセグメンテーションプロパティを表示しません

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

以前の内容に基づくブロックごとの深い特徴の視覚画像学習に関する研究、研究者は CRATE および ViT モデルの深いトークン表現に関する主成分分析 (PCA) 研究を実施しました

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

CRATE はセグメンテーション監視トレーニングなしでも画像内のオブジェクトの境界をキャプチャできることがわかります。

# さらに、主成分は、馬の脚に対応する赤いチャネルなど、トークンとオブジェクト間の類似部分の特徴の位置合わせも示します。 #教師あり ViT モデルの PCA 可視化構造の程度は非常に低いです。

定量的評価

研究者らは、既存のセグメンテーションを使用して CRATE 創発セグメンテーションプロパティとオブジェクト検出テクノロジーを評価しました

セルフアテンションマップからわかるように、CRATE は明確な境界を持つオブジェクトレベルのセマンティクスを明示的にキャプチャします。セグメンテーションの品質を定量的に測定するために、研究者らはセルフアテンションを使用してアテンションマップはセグメンテーションマスクを生成し、標準の mIoU (平均交差対和集合比) を実際のマスクと比較します。

実験結果から、ビジュアルおよび mIOU スコアの点で CRATE が ViT よりも大幅に優れていることがわかります。これは、内部表現がCRATE の機能は、セグメンテーションマスクの生成に役立ちます。タスクをより効率的にマスクします。 Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

オブジェクト検出と詳細なセグメンテーション

CRATE Information によって取得された豊富なセマンティクスをさらに検証および評価するために、研究者らは、効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動による注釈を付けずに自動化された評価モデルを取得し、トークンに基づいて画像からよりきめの細かいセグメンテーションを抽出できます。 CRATE によって学習された表現。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

COCO val2017 のセグメンテーション結果からわかるように、CRATE の内部表現は次のとおりです。検出とセグメンテーションインデックスは教師あり ViT よりも優れていますが、教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーションマスクをまったく生成することさえできません。 Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

#CRATE のセグメンテーション機能のホワイトボックス分析

CRATE における深さの役割

##CRATE の各層の設計は、同じ概念的な目的に従っています。つまり、スパースレートの削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換することです。書き換え後: CRATE の各レベルの設計は同じ哲学に従います: スパース率の削減を最適化し、トークンの配布をコンパクトで構造化された形式に変換します

CRATE の出現を想定しますセマンティックセグメンテーション機能の特徴は、「Z における同様のセマンティックカテゴリに属するトークンのクラスターを表現する」ことに似ています。CRATE のセグメンテーションパフォーマンスは、深さが増すにつれて向上することが期待されます。

これをテストするために、研究者らは、MaskCut パイプラインを使用して、さまざまなレイヤーの内部表現にわたるセグメンテーションのパフォーマンスを定量的に評価し、さらに PCA 視覚化を適用して、セグメンテーションがどのように深度で現れるかを理解しました。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果から、より深い層からの表現を使用するとセグメンテーションスコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。

対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、そのセグメンテーションスコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE からの深い抽出が示されています。表現は徐々に前景オブジェクトにより注意を払い、テクスチャレベルの詳細をキャプチャできるようになります。

CRATE での溶解実験

CRATE と MLP のアテンションブロック (MSSA)ブロック (ISTA) は ViT のアテンションブロックとは異なります

CRATE の創発セグメンテーション特性に対する各コンポーネントの影響を研究するために、研究者は 3 つの CRATE バリアントを選択しました: CRATE、CRATE- MHSA、クレート-MLP。これらのバリアントは、それぞれ ViT のアテンションブロック (MHSA) と MLP ブロックを表します。

研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、次に粗セグメンテーション評価を適用し、異なるモデルのパフォーマンスを定量的に比較するためのマスクセグメンテーション評価。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

実験結果によると、CRATE はすべてのタスクにおいて他のモデルアーキテクチャよりも大幅に優れています。 MHSA と MSSA のアーキテクチャ上の違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT の粗セグメンテーションパフォーマンス (つまり、VOC セグメント) が大幅に向上する可能性があることは注目に値します。これは、ホワイトボックスデザインの有効性をさらに証明しています。

書き直す必要がある内容は次のとおりです: ヘッダーの意味属性の識別に注意してください

[CLS] トークンと画像ブロックトークン間のセルフアテンションマップでは、明確なセグメンテーションマスクが確認できます。直観によると、各アテンションヘッドは、画像ブロックのいくつかの特徴をキャプチャできるはずです。データ。

研究者らは、最初に画像を CRATE モデルに入力し、次に人間に検査して意味的な意味を持つと思われる 4 つのアテンションヘッドを選択させ、次にこれらのアテンションヘッドを他の入力に使用しました。画像頭上の自己注意マップの視覚化。

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

観察によると、各アテンションヘッドはオブジェクトの異なる部分、さらには異なるセマンティクスをキャプチャできることがわかります。たとえば、最初の列のアテンションヘッドはさまざまな動物の脚をキャプチャでき、最後の列のアテンションヘッドは耳と頭をキャプチャできます。

変形可能なため、この機能は視覚入力を部品全体の階層に解析することは、変形可能な部品モデルとカプセルネットワークのリリース以来、認識アーキテクチャの目標であり、ホワイトボックス設計の CRATE モデルにもこの機能があります。

以上がMa Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7519

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

時系列予測 NLP 大規模モデルの新機能: 時系列予測の暗黙的なプロンプトを自動的に生成 Mar 18, 2024 am 09:20 AM

今日は、時系列予測のパフォーマンスを向上させるために、時系列データを潜在空間上の大規模な自然言語処理 (NLP) モデルと整合させる方法を提案するコネチカット大学の最近の研究成果を紹介したいと思います。この方法の鍵は、潜在的な空間ヒント (プロンプト) を使用して時系列予測の精度を高めることです。論文タイトル: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting ダウンロードアドレス: https://arxiv.org/pdf/2403.05798v1.pdf 1. 大きな問題の背景モデル

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

See all articles

Ma Yi 教授の新作: ホワイトボックス ViT は「分割創発」の達成に成功、実証的深層学習の時代は終わりに近づいているのか?

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック