軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー
1. 背景
長年にわたり、Transformer、ラージカーネル CNN、MLP の 3 つのビジョン バックボーン ネットワークは、幅広いコンピューターで大きな成功を収めてきました。これは主に、地球規模で情報を効率的に融合できる能力によるものです。
Transformer、CNN、MLP は現在 3 つの主流のニューラル ネットワークであり、それぞれ異なる方法を使用して、グローバル スコープのトークンの融合。 Transformer ネットワークでは、セルフ アテンション メカニズムは、トークン融合の重みとしてクエリ キー ペアの相関関係を使用します。 CNN は、コンボリューション カーネルのサイズを拡張することで、Transformer と同様のパフォーマンスを実現します。 MLP は、完全な接続を通じてすべてのトークン間に別の強力なパラダイムを実装します。これらの方法は効果的ではありますが、計算の複雑さ (O(N^2)) が高く、ストレージとコンピューティング能力が限られているデバイスに導入するのが難しいため、多くのモデルの適用範囲が制限されます
#2. AFF トークン ミキサー: 軽量、グローバル、適応型
計算コストのかかる問題を解決するために、研究者は適応型 Fu と呼ばれる手法を開発しました。適応型フーリエの効率的なグローバル トークン融合アルゴリズムです。フィルター (AFF)。このアルゴリズムは、フーリエ変換を使用してトークン セットを周波数領域に変換し、周波数領域でコンテンツを適応できるフィルター マスクを学習して、周波数領域空間に変換されたトークン セットに対して適応フィルター操作を実行します。 ##適応周波数フィルター: 効率的なグローバル トークン ミキサー
##原文にアクセスするには、このリンクをクリックしてください: https://arxiv .org/ abs/2307.14008
周波数領域の畳み込み定理によれば、AFF トークン ミキサーの数学的等価演算は、元の領域で実行される畳み込み演算であり、フーリエ アダマール積演算と等価です。ドメイン内で。これは、AFF トークン ミキサーが、元のドメインで動的畳み込みカーネルを使用することにより、コンテンツ適応型のグローバル トークン フュージョンを実現できることを意味します。その空間解像度はトークン セットのサイズと同じです (下図の右のサブ図を参照)。
動的畳み込みは、特に高い空間解像度を持つ動的畳み込みカーネルを使用する場合、計算コストがかかることはよく知られています。このコストは、効率的で軽量なネットワーク設計にとっては高すぎるようです。これは受け入れられません。 。ただし、この記事で提案する AFF トークン ミキサーは、低消費電力の同等の実装で上記の要件を同時に満たすことができ、複雑さを O (N^2) から O (N log N) に軽減し、それによってコンピューティング効率を大幅に向上させます
概略図 1: AFF モジュールと AFFNet ネットワークの構造を示します
3. AFFNet: 軽量レベル ビジュアル ネットワークの新しいバックボーン
AFF トークン ミキサーを主要なニューラル ネットワーク操作オペレーターとして使用することで、研究者たちは、AFFNet と呼ばれる軽量ニューラル ネットワークの構築に成功しました。豊富な実験結果は、AFF トークン ミキサーが、視覚的意味認識や高密度予測タスクなど、幅広い視覚タスクにおいて精度と効率の優れたバランスを達成していることを示しています。
4. 実験結果
研究者らは、視覚的な意味認識、セグメンテーション、検出などの複数のタスクにおける AFF トークン ミキサーと AFFNet のパフォーマンスを評価し、現在の研究分野で最も先進的な軽量ビジュアル バックボーンと比較しました。ネットワークを比較してみました。実験結果は、モデル設計が幅広い視覚タスクで良好に機能することを示し、軽量で効率的な新世代のトークン融合オペレーターとしての AFF トークン ミキサーの可能性を裏付けています。 SOTA と比較した図 2 は、ImageNet-1K データ セットの Acc-Param 曲線と Acc-FLOPs 曲線を示しています
#最先端の手法の結果を ImageNet-1K データセットと比較します。表 1 を参照してください。
表 2 は、先進技術を使用した視覚的検出およびセグメンテーション タスクの比較
5. 結論
この研究は、潜在空間における周波数領域変換がグローバル適応トークン融合において重要な役割を果たしており、効率的かつ低コストであることを証明しています。電力相当の実装。これは、ニューラル ネットワークのトークン融合演算子の設計に関する新しい研究アイデアを提供し、特にストレージとコンピューティング能力が制限されている場合に、エッジ デバイスにニューラル ネットワーク モデルを展開するための新しい開発スペースを提供します#
以上が軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









General Matrix Multiplication (GEMM) は、多くのアプリケーションやアルゴリズムの重要な部分であり、コンピューター ハードウェアのパフォーマンスを評価するための重要な指標の 1 つでもあります。 GEMM の実装に関する徹底的な調査と最適化は、ハイ パフォーマンス コンピューティングとソフトウェア システムとハードウェア システムの関係をより深く理解するのに役立ちます。コンピューター サイエンスでは、GEMM を効果的に最適化すると、計算速度が向上し、リソースが節約されます。これは、コンピューター システムの全体的なパフォーマンスを向上させるために非常に重要です。 GEMM の動作原理と最適化方法を深く理解することは、最新のコンピューティング ハードウェアの可能性をより有効に活用し、さまざまな複雑なコンピューティング タスクに対してより効率的なソリューションを提供するのに役立ちます。 GEMMのパフォーマンスを最適化することで

WORD は強力なワード プロセッサです。Word を使用してさまざまなテキストを編集できます。Excel の表では、足し算、引き算、乗算の計算方法をマスターしました。そのため、Word の表で数値の足し算を計算する必要がある場合は、乗数を引くにはどうすればよいですか? 計算には電卓しか使用できませんか?答えはもちろん「いいえ」です。WORD でも実行できます。今日は、Word文書の表で加算、減算、乗算、除算などの基本的な演算を数式を使って計算する方法を説明しますので、一緒に学びましょう。そこで、今日は、WORD 文書で加算、減算、乗算、除算を計算する方法を詳しく説明します。ステップ 1: WORD を開き、ツールバーの [挿入] の下にある [表] をクリックし、ドロップダウン メニューに表を挿入します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論などの多くの重要なタスクにおいて説得力のある能力を実証し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、大量のトレーニング リソース (左の図に示す) と長い推論時間 (右の図に示す) が必要です。したがって、研究者は効率の問題を解決するための効果的な技術的手段を開発する必要があります。さらに、図の右側からわかるように、Mistral-7B などのいくつかの効率的な LLM (LanguageModel) が、LLM の設計と展開にうまく使用されています。これらの効率的な LLM は、LLaMA1-33B と同様の精度を維持しながら、推論メモリを大幅に削減できます。

Python の count() 関数を使用してリスト内の要素の数を計算する方法には、特定のコード サンプルが必要です。Python は強力で習得しやすいプログラミング言語として、さまざまなデータ構造を処理するための組み込み関数を多数提供しています。その 1 つは count() 関数で、リスト内の要素の数をカウントするために使用できます。この記事では、count()関数の使い方と具体的なコード例を詳しく説明します。 count() 関数は Python の組み込み関数であり、特定の値を計算するために使用されます。

2 つの文字列 str_1 と str_2 を指定します。目的は、再帰的プロシージャを使用して、文字列 str1 内の部分文字列 str2 の出現数をカウントすることです。再帰関数は、その定義内で自分自身を呼び出す関数です。 str1 が「Iknowthatyouknowthatiknow」、str2 が「know」の場合、出現回数は -3 になります。例を通して理解しましょう。たとえば、入力 str1="TPisTPareTPamTP"、str2="TP"; 出力 Countofoccurrencesofasubstringrecursi

C# には、多くの数学関数が含まれる Math クラス ライブラリがあります。これらには、累乗を計算する関数 Math.Pow が含まれており、指定された数値の累乗を計算するのに役立ちます。 Math.Pow 関数の使用法は非常に簡単で、基数と指数を指定するだけです。構文は次のとおりです: Math.Pow(base,exponent); ここで、base は基数を表し、exponent は指数を表します。この関数は double 型の結果、つまりべき乗の計算結果を返します。しましょう

3nmプロセス、H100を超える性能!最近、海外メディア DigiTimes が、Nvidia が人工知能 (AI) およびハイパフォーマンス コンピューティング (HPC) アプリケーション向けの製品として、コードネーム「Blackwell」という次世代 GPU である B100 を開発しているというニュースを伝えました。 , B100はTSMCの3nmプロセスと、より複雑なマルチチップモジュール(MCM)設計を採用し、2024年の第4四半期に登場する予定だ。人工知能 GPU 市場の 80% 以上を独占している Nvidia にとって、B100 を使用して鉄は熱いうちに攻撃し、この AI 導入の波において AMD や Intel などの挑戦者をさらに攻撃することができます。 NVIDIA の推定によると、2027 年までに、この分野の生産額は約

はじめに 行列式を使用して三角形の面積を計算する Java プログラムは、3 つの頂点の座標を指定して三角形の面積を計算できる簡潔で効率的なプログラムです。このプログラムは、Java で基本的な算術および代数計算を使用する方法と、Scanner クラスを使用してユーザー入力を読み取る方法を示しているため、ジオメトリを学習または操作する人にとって役立ちます。プログラムはユーザーに三角形の 3 点の座標を入力するように要求し、その座標が読み取られて、座標行列の行列式を計算するために使用されます。行列式の絶対値を使用して面積が常に正であることを確認し、式を使用して三角形の面積を計算し、ユーザーに表示します。このプログラムは簡単に変更して、さまざまな形式での入力を受け入れたり、追加の計算を実行したりできるため、幾何学的計算のための多用途ツールになります。決定要因のランク
