目次
3.1 ネットワーク フローの観点から見たアテンション メカニズム
3.2 フロー アテンション" >3.2 フロー アテンション
5. 分析
ホームページ テクノロジー周辺機器 AI よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

Apr 16, 2023 pm 07:25 PM
通信網 モデル 清華大学

タスクの普遍性は基礎モデル研究の中核目標の 1 つであり、深層学習研究が高度なインテリジェンスにつながる唯一の方法でもあります。近年、アテンション メカニズムのユニバーサル キー モデリング機能のおかげで、Transformer は多くの分野で良好なパフォーマンスを発揮し、徐々にユニバーサル アーキテクチャの傾向を示しています。ただし、シーケンスの長さが増加するにつれて、標準的なアテンション メカニズムの計算は 2 次の複雑さを示し、長いシーケンス モデリングや大規模なモデルへの適用が著しく妨げられます。

この目的を達成するために、清華大学ソフトウェア学部のチームはこの重要な問題を深く調査し、標準の汎用性を維持しながら、タスク汎用の線形複雑性バックボーン ネットワーク Flowformer を提案しました。 Transformer 同時に、その複雑さは線形に軽減され、論文は ICML 2022 に採択されました。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

著者リスト: Wu Haixu、Wu Jialong、Xu Jiehui、Wang Jianmin、Long Mingsheng

##リンク: https://arxiv.org/pdf/2202.06258.pdf

コード: https://github.com /thuml/ Flowformer

標準の Transformer と比較して、この記事で提案する Flowformer モデルには次の特徴があります。

  • ## 線形複雑さ は、数千の長さの入力シーケンスを処理できます。
  • は、新しい帰納的な優先順位を導入せず、 の普遍性を維持します。独自の注意メカニズム モデリング能力;
  • 普遍的なタスク、および 長いシーケンス、ビジョン、自然言語、時系列、および強化学習 効果。
1. 問題分析

標準のアテンション メカニズム入力には、queries()、keys()、values() の 3 つの部分とその計算方法が含まれます。ここで、 は注目重み行列であり、最終的な計算結果は重み付き融合によって得られます。上記のプロセスの計算量は です。古典的なアルゴリズムにおける多項行列の連続乗算の問題については多くの研究が行われてきたことに注意してください。特に、アテンション メカニズムについては、行列乗算の結合法則を使用して最適化を達成できます。たとえば、元の 2 次の複雑さを線形に減らすことができます。しかし、注意メカニズムの機能により、結合法則を直接適用することは不可能になります。したがって、アテンション メカニズムの関数をどのように削除するかが、線形の複雑さを実現するための鍵となります。しかし、最近の多くの研究では、関数が些細な注意学習を回避する上で重要な役割を果たすことが実証されています。要約すると、(1) 機能を削除する、(2) 些細な注意を避ける、(3) モデルの汎用性を維持する、という目標を達成するモデル設計ソリューションが期待されています。

2. 動機

目標 (1) を考慮すると、これまでの研究では、関数を置き換えるためにカーネル メソッドがよく使用されていました。 (非線形関数の) 計算ですが、それを直接削除すると、些細な注意が必要になります。この目的を達成するために、目標 (2) については、以前の研究 でいくつかの帰納的優先順位を導入する必要がありましたが、これによりモデル の汎用性が制限され、そのため cosFormer の局所性仮定などの目標 (3) を満たせませんでした。 。

Softmax における競争メカニズム

上記の目的を達成するために、 の基本特性に基づいて分析します。当初、「勝者総取り」最大演算を微分可能な形式に拡張することが提案されたことに注意してください。したがって、 はその固有の「競合」メカニズムのおかげで、さまざまなトークン間の注意の重みを区別することができ、それによって通常の注意の問題を回避できます。 上記の考慮事項に基づいて、カーネルメソッドの分解によって引き起こされる些細なアテンションの問題を回避するために、アテンションメカニズムの設計に競合メカニズムを導入しようとします。

ネットワークフローにおける競争メカニズム

グラフ理論における古典的なネットワークフロー(フローネットワーク)モデルの「保存」##に注目します。 #(保全)は重要な現象であり、各ノードへの流入と流出が等しいということです。 「固定リソースは必然的に競争を引き起こす」 に触発され、この記事では、古典的な注意メカニズムにおける情報の流れをネットワーク フローの観点から再分析し、保全を通じて競争を転換することを試みます。プロパティ 通常の注意の問題を回避するための注意メカニズム 設計を導入します。 3. フローフォーマー

3.1 ネットワーク フローの観点から見たアテンション メカニズム

アテンション メカニズムの内部: 情報の流れは次のように表現できます。 from

Source (ソース、対応) は、学習された flow Capacity (フロー キャパシティ、対応する注意の重み) に基づいて sink (シンク、対応) に収集されます。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

アテンション メカニズムの外側では、ソース (v) の情報はネットワークの上位層から取得され、シンク (R) の情報も提供されます。下のフィードフォワード層に転送します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

3.2 フロー アテンション

上記の観察に基づいて、次のことができます。 inflow フローとアウトフローの 2 つの観点から、アテンションメカニズムと外部ネットワーク間の相互作用を制御して「固定リソース」を実現し、それによってソースとシンク内でそれぞれ競合を引き起こし、通常のアテンションを回避します。一般性を失わずに、アテンション メカニズムと外部ネットワーク間のインタラクション情報の量をデフォルト値 1.

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

に設定します。 (1) シンク (R) の流入保存量:

を取得することは難しくありません。保存前、シンクの流入情報量は次のとおりです。

。各シンクに流入する情報量をユニット 1 に固定するために、情報フロー (注意の重み) の計算における正規化として よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022 を導入します。正規化後、シンクの流入情報量は次のようになります。 よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

#このとき、シンクの流入の保存により、シンク間の自然な競合が発生します。さまざまな情報源 (V) の関係を考慮して、この時点で各情報源 (V) が提供する情報量を計算すると、次のことが得られます。 競合状態にある各情報源が提供する情報量。これは各情報源の重要性も表します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

(2) 発生源 (V) からの流出の保全: 保全前の前述のプロセスと同様に、ソースから流出する情報量は です。各ソースから流出する情報量を単位 1 に固定するために、正規化として情報の流れ (注意の重み) の計算を導入します。正規化後の、j 番目のソースからの流出情報の量は、よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022 になります。このとき、ソースからの流出が保存されるため、シンク間には自然な競争関係が生じます () このとき、各シンク () が受け取る情報量を計算すると、次のようになります。競技の結果ごとに最終的に求められるのは、受け取る情報量です。 よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

(3) 全体設計

上記の結果をもとに、以下の Flow-Attendance 機構を設計します。具体的には、競争 (Competition)、集約 (Aggregation)、および割り当て (Allocation) の 3 つの部分が含まれます: 競争では、重要な情報を強調するために競争メカニズムが導入されます。集約では、行列結合法則に基づいて線形の複雑さが実現されます。割り当てでは、競争メカニズムが導入され、制御が他のユーザーに移されます。次のステップ、情報の 1 層。上記のプロセスのすべての操作には線形の複雑さがあります。同時に、フロー アテンションの設計は、ネットワーク フローの保存原則にのみ依存し、情報フローを再統合するため、新たな帰納的優先順位を導入せず、モデルの汎用性を確保します。 Flowformer は、標準の Transformer の 2 次複雑度 Attendance を Flow-Attendance に置き換えることによって得られます。

4. 実験

この文書では、標準データセットに対して広範な実験を実施します:

    5 つの主要なタスクについて説明します。 : 長いシーケンス、視覚、自然言語、時系列、強化学習;
  • では、通常 (Normal) タスクと自己回帰タスク (Causal) の 2 種類の注意メカニズムを調べます。
  • さまざまなシーケンス長 (20 ~ 4000) の入力状況をカバーします。
  • さまざまな分野の古典的なモデル、主流のディープ モデル、Transformer とそのバリアントなど、さまざまなベースライン手法を比較します。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

以下の表に示すように、Flowformer は 5 つのタスクすべてで良好なパフォーマンスを示し、モデルの多用途性を実証しました。詳細な実験結果については論文を参照してください。

5. 分析

Flowformer の動作原理をさらに説明するために、ImageNet 分類タスク (フロー アテンションに対応) におけるアテンションに関する視覚実験を実施しました。

  • 線形変換器などの分解にカーネル メソッドのみを使用する場合、モデルの注意が散漫になり、重要な領域を効果的にキャプチャできなくなります。
  • ##従来の Transformer と Flowformer はどちらも画像の主要な位置を正確にキャプチャできますが、後者には計算の複雑さの点で利点があります。
  • cosFormer では 1 次元が導入されています。注意メカニズムの局所性 仮説として、その効果は言語タスクにおいて顕著です。しかし、画像 (2D データを 1D シーケンスに展開する) では、局所性の仮定を 2 次元に拡張しない限り、視覚タスクに適応させることはできません。これは、「新たな帰納的優先順位を導入しない」という Flowformer の設計方法の利点も裏付けています。

よくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022

上記の視覚化は、フローアテンションを通じて注意メカニズムの設計に競争を導入すると、些細な注意を効果的に回避できることを示しています。この論文には、さらに多くの視覚化実験が記載されています。

6. 概要

この記事で提案するフローフォーマーは、ネットワーク フローの保存原理を設計に導入し、注意計算に競争メカニズムを効果的に導入します。これにより、些細な注意の問題が解決され、線形の複雑さを実現しながら、標準の Transformer の多用途性が維持されます。 Flowformer は、長いシーケンス、ビジョン、自然言語、時系列、強化学習という 5 つの主要なタスクで優れた結果を達成しました。さらに、フローフォーマーの「特別な誘導を優先しない」という設計コンセプトは、一般インフラの研究にも刺激を与えます。今後の取り組みでは、大規模な事前トレーニングにおける Flowformer の可能性をさらに探求していきます。

以上がよくあるタスク!清華社、線形複雑性を実現するバックボーン ネットワーク Flowformer を提案 | ICML2022の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

ネットワークが Wi-Fi に接続できない場合は何が起こっているのでしょうか? ネットワークが Wi-Fi に接続できない場合は何が起こっているのでしょうか? Apr 03, 2024 pm 12:11 PM

1. Wi-Fi パスワードを確認します。入力した Wi-Fi パスワードが正しいことを確認し、大文字と小文字の区別に注意してください。 2. Wi-Fi が適切に動作しているかどうかを確認する: Wi-Fi ルーターが正常に動作しているかどうかを確認し、同じルーターに他のデバイスを接続して、デバイスに問題があるかどうかを判断できます。 3. デバイスとルーターを再起動します。デバイスまたはルーターに誤動作やネットワークの問題が発生する場合があり、デバイスとルーターを再起動すると問題が解決する場合があります。 4. デバイスの設定を確認します。デバイスのワイヤレス機能がオンになっていて、Wi-Fi 機能が無効になっていないことを確認します。

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

See all articles