過去 10 年ほどで、AI が急速に発展したのは、主にエンジニアリングの実践の進歩によるものです。AI 理論は、アルゴリズム開発の指針としての役割を果たしていません。経験的に設計されたニューラル ネットワークは、依然として未解決です。箱。
ChatGPT の人気により、AI の機能は常に誇張され、誇大宣伝され、社会を脅かし誘拐するまでになっています。Transformer アーキテクチャの設計を透明にすることが急務です。
最近、Ma Yi 教授のチームは最新の研究結果を発表し、次の方法で完全に説明できる ホワイトボックス変圧器モデル CRATE を設計しました。 そして、実世界のデータセット ImageNet-1K で ViT に近いパフォーマンスを達成しました。
コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE
#論文リンク: https://arxiv.org/abs/2306.01129
この論文では、研究者らは、表現学習の目標はデータの圧縮と変換であると考えています (たとえば、トークン セットの分布) を使用して、インコヒーレントな部分空間上の低次元ガウス分布の混合をサポートし、最終表現の品質は、スパース レート削減の統一目的関数によって測定できます。
この観点から、Transformer などの一般的なディープ ネットワーク モデルは、この目標を段階的に最適化するための反復スキームを実現すると自然に考えることができます。
特に、結果は、標準の Transformer ブロックが、この目的の補完的な部分の交互の最適化から導出できることを示しています。マルチヘッドのセルフアテンション オペレーターは、最小化すると見なすことができます。勾配降下ステップでは、コーディング レートを下げてトークン セットを圧縮します。その後の多層パーセプトロンは、トークン表現をスパース化しようとしていると考えることができます。
この発見は、数学的に完全に解釈可能な一連のホワイト ボックス トランスフォーマーのようなディープ ネットワーク アーキテクチャの設計も促しました。設計は単純ですが、実験結果は、これらのネットワークが実際に設計目標を最適化する方法を学びました。ImageNet などの大規模な実世界のビジュアル データセットの表現を圧縮およびスパース化し、高度に設計された Transformer モデル (ViT) に近いパフォーマンスを達成します。
Turing Award 受賞者の Yann LeCun 氏も Ma Yi 教授の研究に同意し、Transformer は LISTA (Learned Iterative Shrinkage and Thresholding Algorithm) と同様の手法を使用してスパース圧縮を段階的に最適化していると考えています。
Ma Yi 教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、中国大学で EECS の修士号を取得しました。 1997 年にカリフォルニア州バークレーで数学の修士号を取得し、2000 年に EECS で博士号を取得しました。
#Ma Yi 教授は、2018 年にカリフォルニア大学バークレー校の電気工学およびコンピューター サイエンス学部に加わりました。彼は香港大学のデータサイエンス研究所所長として入社し、最近では香港大学のコンピューティング学部長に就任しました。
主な研究方向は、3D コンピュータ ビジョン、高次元データの低次元モデル、スケーラビリティの最適化、機械学習です。最近の研究トピックには、大規模な 3D 幾何学的再構成と相互作用、および低次元モデルとディープネットワークの関係。
このペーパーの主な目的は、より統合されたフレームワークを使用して、Transformer と同様のネットワーク構造を設計し、次のことを実現することです。数学的信頼性 解釈可能で優れた実用的なパフォーマンス。
この目的を達成するために、研究者らは、入力データ (トークン セット) の最小限の圧縮と最もまばらな表現を取得し、統合された目的関数を最適化するために、一連の増分マッピングを学習することを提案しました。スパース率を下げるため。
このフレームワークは、「トランスモデルとセルフアテンション」、「拡散モデルとノイズリダクション」、「構造化探索とレートリダクション」を統合します(構造探索モデルとレートリダクション) ) および、Transformer のようなディープ ネットワーク層が、スパース レート削減目標を段階的に最適化するための反復最適化スキームの展開から自然に導出できることを示します。
#マップされたターゲット
複数の部分空間に向けたトークンのノイズ除去によるセルフアテンション
研究者らは、理想化されたトークン分布モデルを使用して、低次元の部分空間系列ノイズに向けて反復すると、関連するスコアリング関数は、Transformer のセルフアテンション演算子と同様の明示的な形式になります。
レート削減の最適化によるトークン セットの圧縮によるセルフ アテンション
研究者らは、マルチヘッド セルフ アテンションを導き出しました。層は、レート削減の非可逆符号化レート部分を最小限に抑えるための展開された勾配降下ステップであり、セルフアテンション層を圧縮されたトークン表現として解釈する代替方法を示しています。
スパースコーディングのための反復圧縮閾値アルゴリズム (ISTA) による MLP
研究者らは、Transformer でそれを実証しました。ブロック マルチヘッド セルフ アテンション層の直後に続く多層パーセプトロンは、トークン表現スパース エンコーディングを構築することによってスパース レート削減ターゲットの残りを徐々に最適化する層として解釈できます (また、置き換えることもできます)。
CRATE上記の理解に基づいて、研究者らは目的関数と深層学習を学習するための新しいホワイトボックス Transformer アーキテクチャ CRATE (Coding RAteduction TransformEr) を作成しました。アーキテクチャと最終的に学習された表現は完全に数学的に解釈可能であり、各層が交互の最小化アルゴリズムのステップを実行して、スパース性低減の目標を最適化します。
CRATE は、新しくビルドされたパーツが同じである限り、ビルドのすべての段階で可能な限り単純なビルド方法を選択することがわかります。概念的な役割を直接置き換えて、新しいホワイト ボックス アーキテクチャを取得できます。
実験セクション研究者の実験目標は、基本設計を使用して他の優れた設計のトランスフォーマーと競合することだけでなく、次のことも行うことでした。
1. 通常、エンドツーエンドのパフォーマンスのみで評価される経験的に設計されたブラックボックス ネットワークとは異なり、ホワイトボックス設計のネットワークは、ディープ アーキテクチャの内部を調べて、学習したレイヤーの層を 検証できます。 network ターゲット上で増分最適化を実行するという設計目標 を実際に実行するかどうか。
2. CRATE アーキテクチャはシンプルですが、実験結果は、このアーキテクチャの大きな可能性を検証する必要があります、つまり、大規模な環境で使用できるということです。現実世界のデータセットとタスク 高度に設計された Transformer モデルに匹敵するパフォーマンス を達成します。
モデル アーキテクチャ
トークンの次元、ヘッドの数、およびトークンの数を変更することで、レイヤー、調査 CRATE-Tiny、CRATE-Small、CRATE-Base、および CRATE-Large として示される、異なるサイズの 4 つの CRATE モデルを作成しました。最適化
この記事では主に ImageNet-1K をテスト プラットフォームとして考慮し、Lion オプティマイザーを使用してさまざまなモデル サイズの CRATE モデルをトレーニングします。
CRATE の転移学習パフォーマンスも評価されました。ImageNet-1K でトレーニングされたモデルが事前トレーニング モデルとして使用され、その後、そのモデルが一般的に使用されるいくつかのダウンストリーム データでトレーニングされました。 CRATE を微調整するためのセット (CIFAR10/100、Oxford Flowers、Oxford-IIT-Pets)。
#CRATE のレイヤーは設計目標を達成していますか?
層インデックスが増加するにつれて、ほとんどの場合、CRATE-Small モデルには圧縮項とスパース化項の両方があることがわかります。 、最後の層のスパース度の増加は、分類に使用される追加の線形層によるものです。
結果は、CRATE が元の設計目標と非常に一致していることを示しています。CRATE は、一度学習すると、基本的に、レイヤーを通して表現を徐々に圧縮し、スパースすることを学習します。
他のサイズの CRATE モデルと中間モデル チェックポイントで圧縮とスパース化の項を測定した後、実験結果は依然として非常に優れていることがわかります。一貫性があり、層が多いモデルは目標をより効果的に最適化する傾向があり、各層の役割についての以前の理解を検証します。
パフォーマンスの比較
ImageNet-1K と提案されたネットワークの経験的パフォーマンスは、広く使用されているいくつかの下流データセットに対する転移学習パフォーマンスを通じて研究されます。
設計されたアーキテクチャではアテンション ブロック (MSSA) と MLP ブロック (ISTA) の両方でパラメーター共有を利用しているため、CRATE-Base モデル ( 2,208 万) には、ViT-Small (2,205 万) と同様の数のパラメータがあります。
モデルパラメータの数が同様の場合、記事で提案されているネットワークは、ViT と同様の ImageNet-1K と転移学習パフォーマンスを達成していることがわかりますが、CRATE の設計は次のとおりです。よりシンプルで強力な解釈可能性。
さらに、同じトレーニング ハイパーパラメータの下で、CRATE は拡張を続けることができます。つまり、ImageNet 上の ViT の規模を直接拡張しながら、モデルの規模を拡張することでパフォーマンスを継続的に向上させることができます。 -1K であり、常に一貫したパフォーマンスの向上につながるとは限りません。
つまり、CRATE ネットワークは、その単純さにもかかわらず、大規模な実世界のデータセットで必要な圧縮とスパース表現をすでに学習し、次のようなさまざまなタスクで適切に実行できます。分類と転移学習) を使用して、より高度に設計された Transformer ネットワーク (ViT など) と同等のパフォーマンスを実現します。
以上がMa Yi 教授の 5 年間の傑作、完全に数学的に解釈可能なホワイトボックス Transformer であり、その性能は ViT に劣りません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。