ホームページ テクノロジー周辺機器 AI Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

Sep 09, 2023 pm 10:37 PM
理論 マイクロソフト リサーチ アジア 知識の蒸留

#再表明: 研究動機


マスク モデリング (MIM、MAE) は、非常に効果的な自己教師付きトレーニング方法であることが証明されています。ただし、図 1 に示すように、MIM は大規模なモデルで比較的良好に機能します。モデルが非常に小さい場合 (ViT-T 5M パラメーターなど、このようなモデルは現実世界にとって非常に重要です)、MIM はモデルの効果をある程度まで低減する場合もあります。たとえば、ImageNet 上の MAE でトレーニングされた ViT-L の分類効果は、通常の監視でトレーニングされたモデルより 3.3% 高くなりますが、ImageNet 上の MAE でトレーニングされた ViT-T の分類効果は 0.6% 低くなります。通常の監督下でトレーニングされたモデル。

この研究では、蒸留法を使用して大規模モデルから小規模モデルに知識を伝達する TinyMIM を提案しました。

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上



    紙のアドレス : https://arxiv.org/pdf/2301.01296.pdf
  • コードアドレス: https://github.com/OliverRensu/TinyMIM

私たちは、蒸留目標、データ強化、正則化、補助損失関数などが蒸留に及ぼす影響を体系的に研究しました。厳密に ImageNet-1K のみをトレーニング データとして使用し (これも ImageNet-1K トレーニングのみを使用する Teacher モデルを含む)、ViT-B をモデルとして使用する場合、私たちの方法は現時点で最高のパフォーマンスを達成します。図に示すように:

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


#メソッドを入力します。 (TinyMIM) は、マスク再構成ベースの手法 MAE およびゼロからトレーニングされた教師あり学習手法 DeiT と比較されます。モデルが比較的大きい場合、MAE はパフォーマンスを大幅に向上させますが、モデルが比較的小さい場合、向上は限定的であり、モデルの最終的な効果を損なう可能性さえあります。私たちの手法である TinyMIM は、さまざまなモデル サイズにわたって大幅な改善を実現します。
私たちの貢献は次のとおりです:
1. 蒸留ターゲット: 1) 蒸留トークン それらの間の関係は次のとおりです。クラストークンや特徴マップのみを抽出するよりも効果的; 2) 中間層を抽出のターゲットとして使用する方が効果的です。
2. データの強化とモデルの正則化 (データとネットワークの正則化): 1) マスクされた画像を使用すると、効果がさらに悪くなります; 2) 学生モデルにはドロップ パスが必要ですが、教師モデルには必要ありません。
3. 補助損失: MIM は補助損失関数としては無意味です。
4. マクロ蒸留戦略: 連続蒸留 (ViT-B -> ViT-S -> ViT-T) が最も効果的であることがわかりました。
# 2. 方法

# #


蒸留目標、入力画像、蒸留対象モジュールを体系的に調査しました。

#2.1 蒸留効果に影響を与える要因

1) 特徴:

#a. 中間ブロック機能と出力機能

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


#i=L の場合、Transformer 出力層の特性を指します。 i
b. アテンション (アテンション) 機能とフィードフォワード層 (FFN) 層の機能

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


#Transformer 各ブロックにはアテンション レイヤーと FFN レイヤーがあり、蒸留レイヤーが異なれば効果も異なります。

c.QKV の機能


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

##注意層には Q、K、V 特徴量が含まれます。これらの特徴量は、注意メカニズムの計算に使用されます。また、これらの特徴量の直接抽出についても調査しました。

2) 関係


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

##Q、K、V はアテンション マップの計算に使用され、これらの特徴間の関係は知識の蒸留の対象としても使用できます。


#3) 入力: マスクするかどうか

従来の知識の蒸留では、完全な画像を直接入力します。私たちの方法は、蒸留マスク モデリング モデルを調査することであるため、マスクされた画像が知識蒸留の入力として適切かどうかも調査します。

2.2 知識抽出方法の比較

1) クラストークン抽出:

最も簡単な方法は、DeiT に似た MAE 事前トレーニング モデルのクラス トークンを直接抽出することです:


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上## ここで、

は学生モデルのクラス トークンを指し、
は学生モデルのクラス トークンを指します。先生のモデル。

#2) 特徴抽出: 比較として特徴抽出 [1] を直接参照します
Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


##3) リレーショナル蒸留: 私たちは次のことも提案しました。この記事のデフォルトの蒸留戦略

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上



## 3. 実験Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上



3.1 主な実験結果
我々の方法はPreです。 -ImageNet-1K でトレーニングされており、教師モデルも ImageNet-1K で事前トレーニングされています。次に、下流のタスク (分類、セマンティック セグメンテーション) で事前トレーニングされたモデルを微調整しました。モデルのパフォーマンスは次の図に示されています:
#


私たちの方法は、特に小規模モデルの場合、以前の MAE ベースの方法よりも大幅に優れています。特に、超小型モデル ViT-T の場合、私たちの方法は 75.8% の分類精度を達成し、MAE ベースライン モデルと比較して 4.2 向上しました。小型モデル ViT-S では、83.0% の分類精度を達成し、これまでの最良の方法と比較して 1.4 向上しました。基本サイズのモデルの場合、私たちの方法は、それぞれ MAE ベースライン モデルと CAE 4.1 および 2.0 による以前の最高のモデルを上回っています。

同時に、図に示すように、モデルの堅牢性もテストしました。

Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上


MAE-B と比較して、TinyMIM-B は ImageNet-A と ImageNet-R でそれぞれ 6.4 と 4.6 向上しました。 。

#3.2 アブレーション実験

1) さまざまな関係の蒸留


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

## QK、VV 関係を同時に抽出し、次の場合にソフトマックスを持ちます。関係を計算することで最良の結果が得られました。


#2) さまざまな蒸留戦略


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

TinyMIM 関係を抽出するこの方法では、MAE ベースライン モデル、クラス トークンの抽出、および特徴マップの抽出よりも優れた結果が得られ、これはさまざまなサイズのモデルに当てはまります。


3) 蒸留中間層


Microsoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上

蒸留の 18 層目で最良の結果が得られることがわかりました。


4. 結論

この記事では、TinyMIM を提案しました。小規模モデルがマスク再構成モデ​​リング (MIM) 事前トレーニングの恩恵を受けることを可能にする最初のモデルです。タスクとしてマスク再構成を採用する代わりに、知識蒸留法で大きなモデルの関係をシミュレートするために小さなモデルをトレーニングすることによって、小さなモデルを事前にトレーニングします。 TinyMIM の成功は、蒸留ターゲット、蒸留入力、中間層など、TinyMIM の事前トレーニングに影響を与える可能性のあるさまざまな要因を包括的に調査したことに起因すると考えられます。広範な実験を通じて、私たちは関係蒸留が特徴蒸留やクラスラベル蒸留などより優れていると結論付けました。そのシンプルさと強力なパフォーマンスにより、私たちの方法が将来の研究のための強固な基盤となることを願っています。

[1] Wei, Y.、Hu, H.、Xie, Z.、Zhang, Z.、Cao, Y.、Bao, J. , ... & Guo, B. (2022). 特徴抽出による微調整において、対照学習はマスクされた画像モデリングに匹敵します。arXiv プレプリント arXiv:2205.14141.

以上がMicrosoft Research Asia が TinyMIM を発表: 知識の蒸留により小型 ViT のパフォーマンスを向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

See all articles