タスクの普遍性は基礎モデル研究の中核目標の 1 つであり、深層学習研究が高度なインテリジェンスにつながる唯一の方法でもあります。近年、アテンション メカニズムのユニバーサル キー モデリング機能のおかげで、Transformer は多くの分野で良好なパフォーマンスを発揮し、徐々にユニバーサル アーキテクチャの傾向を示しています。ただし、シーケンスの長さが増加するにつれて、標準的なアテンション メカニズムの計算は 2 次の複雑さを示し、長いシーケンス モデリングや大規模なモデルへの適用が著しく妨げられます。
この目的を達成するために、清華大学ソフトウェア学部のチームはこの重要な問題を深く調査し、標準の汎用性を維持しながら、タスク汎用の線形複雑性バックボーン ネットワーク Flowformer を提案しました。 Transformer 同時に、その複雑さは線形に軽減され、論文は ICML 2022 に採択されました。
著者リスト: Wu Haixu、Wu Jialong、Xu Jiehui、Wang Jianmin、Long Mingsheng
##リンク: https://arxiv.org/pdf/2202.06258.pdf
コード: https://github.com /thuml/ Flowformer
標準の Transformer と比較して、この記事で提案する Flowformer モデルには次の特徴があります。
標準のアテンション メカニズム入力には、queries()、keys()、values() の 3 つの部分とその計算方法が含まれます。ここで、 は注目重み行列であり、最終的な計算結果は重み付き融合によって得られます。上記のプロセスの計算量は です。古典的なアルゴリズムにおける多項行列の連続乗算の問題については多くの研究が行われてきたことに注意してください。特に、アテンション メカニズムについては、行列乗算の結合法則を使用して最適化を達成できます。たとえば、元の 2 次の複雑さを線形に減らすことができます。しかし、注意メカニズムの機能により、結合法則を直接適用することは不可能になります。したがって、アテンション メカニズムの関数をどのように削除するかが、線形の複雑さを実現するための鍵となります。しかし、最近の多くの研究では、関数が些細な注意学習を回避する上で重要な役割を果たすことが実証されています。要約すると、(1) 機能を削除する、(2) 些細な注意を避ける、(3) モデルの汎用性を維持する、という目標を達成するモデル設計ソリューションが期待されています。
2. 動機目標 (1) を考慮すると、これまでの研究では、関数を置き換えるためにカーネル メソッドがよく使用されていました。 (非線形関数の) 計算ですが、それを直接削除すると、些細な注意が必要になります。この目的を達成するために、目標 (2) については、以前の研究 でいくつかの帰納的優先順位を導入する必要がありましたが、これによりモデル の汎用性が制限され、そのため cosFormer の局所性仮定などの目標 (3) を満たせませんでした。 。
Softmax における競争メカニズム上記の目的を達成するために、 の基本特性に基づいて分析します。当初、「勝者総取り」最大演算を微分可能な形式に拡張することが提案されたことに注意してください。したがって、 はその固有の「競合」メカニズムのおかげで、さまざまなトークン間の注意の重みを区別することができ、それによって通常の注意の問題を回避できます。 上記の考慮事項に基づいて、カーネルメソッドの分解によって引き起こされる些細なアテンションの問題を回避するために、アテンションメカニズムの設計に競合メカニズムを導入しようとします。
ネットワークフローにおける競争メカニズムグラフ理論における古典的なネットワークフロー(フローネットワーク)モデルの「保存」##に注目します。 #(保全)は重要な現象であり、各ノードへの流入と流出が等しいということです。 「固定リソースは必然的に競争を引き起こす」 に触発され、この記事では、古典的な注意メカニズムにおける情報の流れをネットワーク フローの観点から再分析し、保全を通じて競争を転換することを試みます。プロパティ 通常の注意の問題を回避するための注意メカニズム 設計を導入します。 3. フローフォーマー
Source (ソース、対応) は、学習された flow Capacity (フロー キャパシティ、対応する注意の重み) に基づいて sink (シンク、対応) に収集されます。
アテンション メカニズムの外側では、ソース (v) の情報はネットワークの上位層から取得され、シンク (R) の情報も提供されます。下のフィードフォワード層に転送します。 上記の観察に基づいて、次のことができます。 inflow フローとアウトフローの 2 つの観点から、アテンションメカニズムと外部ネットワーク間の相互作用を制御して「固定リソース」を実現し、それによってソースとシンク内でそれぞれ競合を引き起こし、通常のアテンションを回避します。一般性を失わずに、アテンション メカニズムと外部ネットワーク間のインタラクション情報の量をデフォルト値 1. に設定します。 (1) シンク (R) の流入保存量: 。各シンクに流入する情報量をユニット 1 に固定するために、情報フロー (注意の重み) の計算における正規化として を導入します。正規化後、シンクの流入情報量は次のようになります。
(2) 発生源 (V) からの流出の保全: 保全前の前述のプロセスと同様に、ソースから流出する情報量は です。各ソースから流出する情報量を単位 1 に固定するために、正規化として情報の流れ (注意の重み) の計算を導入します。正規化後の、j 番目のソースからの流出情報の量は、 になります。このとき、ソースからの流出が保存されるため、シンク間には自然な競争関係が生じます () このとき、各シンク () が受け取る情報量を計算すると、次のようになります。競技の結果ごとに最終的に求められるのは、受け取る情報量です。 (3) 全体設計 4. 実験
Flowformer の動作原理をさらに説明するために、ImageNet 分類タスク (フロー アテンションに対応) におけるアテンションに関する視覚実験を実施しました。 6. 概要3.2 フロー アテンション
5 つの主要なタスクについて説明します。 : 長いシーケンス、視覚、自然言語、時系列、強化学習;
以下の表に示すように、Flowformer は 5 つのタスクすべてで良好なパフォーマンスを示し、モデルの多用途性を実証しました。詳細な実験結果については論文を参照してください。 5. 分析
上記の視覚化は、フローアテンションを通じて注意メカニズムの設計に競争を導入すると、些細な注意を効果的に回避できることを示しています。この論文には、さらに多くの視覚化実験が記載されています。
以上がよくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。