ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます-AI-php.cn

実験と結果

ホームページ

テクノロジー周辺機器

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

PHPz

Sep 20, 2023 pm 08:53 PM

モデル google

Transformer アーキテクチャは、最新の機械学習の分野で広く使用されています。重要な点は、トークンの確率分布を生成するために使用されるソフトマックスを含むトランスフォーマーのコアコンポーネントの 1 つに焦点を当てることです。 Softmax は指数計算とシーケンス長の合計を実行するため、コストが高くなります。そのため、並列化の実行が困難になります。

Google DeepMind は新しいアイデアを考え出しました。ソフトマックス演算を、必ずしも確率分布を出力しない新しいメソッドに置き換えます。 研究者らはまた、ReLU をシーケンス長で割った値をビジュアル Transformer と併用すると、従来のソフトマックスに近づくか、それに匹敵する可能性があることを観察しました。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

論文リンク: https://arxiv.org/abs/2309.08586

この結果がもたらすものReLU はシーケンス長の次元で並列化でき、必要な収集操作が従来のものよりも少ないため、並列化に対する新しいソリューション

#メソッド

##重要な点は集中することです

重要な点は d 次元のクエリ、キー、値を変換する関数に集中することです {q_i, k_i, v_i} 2 段階のプロセスを通じて

#最初のステップでは、フォースウェイトによってキーポイントを取得することに重点を置くことが重要です。

: ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

## ここで、ϕ は通常ソフトマックスです。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます

この焦点を使用した次のステップは、重みに焦点を当てて出力を計算することですこのペーパーでは、ϕ の代替として点単位の計算の使用について検討します。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます ReLU の重要なポイントは、

DeepMind が式 1 の ϕ = ソフトマックスを観察したことに焦点を当てることです。 ,

がより良い代替手段です。彼らは、

フォーカスは ReLU と呼ばれます。 ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます拡張されたポイントごとの焦点は、焦点を絞ることです

研究者らはまた、実験的にさらに広範囲の調査を行いました。

選択肢。α ∈ [0, 1] および h ∈ {relu,relu², gelu,softplus,identity,relu6,sigmoid}。

ReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されます書き直す必要があるのは、シーケンスの長さの拡張です。

彼らはまた、Expanding を使用している場合に次のことを発見しました。シーケンス長 L の項目を使用すると、精度が向上します。 Softmax を削除しようとする以前の研究作業では、この拡張スキームは使用されていませんでした。

現在ソフトマックスの使用に重点を置いて設計されているトランスフォーマーの中には、があります。これはを意味しますが、これは必要な条件である可能性は低いですが、ただし、は、初期化中のの複雑さがであることを保証できます。この条件を維持すると、 Softmax を置き換える場合は、他のハイパーパラメータを変更する必要があります。

初期化時はq、kの要素がO(1)なので、もO(1)となります。 ReLU のような活性化関数は O (1) を維持するため、の複雑度をにするにはの係数が必要です。

実験と結果

主な結果

図 1 説明ImageNet-21k トレーニングに関しては、ReLU はフォーカスに重点を置き、softmax はスケーリングトレンドに重点を置いています。 X 軸は、実験に必要なカーネルの合計計算時間を時間単位で示します。 ReLU の大きな利点は、シーケンス長の次元で並列化でき、必要な収集操作がソフトマックスよりも少ないことです。

#書き直す必要がある内容は、シーケンス長を拡張した場合の効果です

図 2 は、書き直す必要があるもの、つまりシーケンス長拡張法の結果と、ソフトマックスに代わる他のさまざまなポイントごとのソリューションを比較しています。具体的には、relu、relu²、gelu、softplus、identityなどをsoftmaxの代わりに使用することです。 X軸はαです。 Y 軸は、S/32、S/16、および S/8 Vision Transformer モデルの精度です。通常、α が 1 に近い場合に最良の結果が得られます。明確な最適な非線形性がないため、主な実験では高速な ReLU を使用しました。

## qk-layernorm の効果は次のように言い換えることができます:
主な実験では qk-layernorm を使用し、重みを計算する前にクエリとキーが LayerNorm に渡されました。 DeepMind は、デフォルトで qk-layernorm を使用する理由は、モデルサイズをスケーリングする際の不安定性を防ぐ必要があるためであると述べています。図 3 は、qk-layernorm を削除した場合の影響を示しています。この結果は、qk-layernorm がこれらのモデルにほとんど影響を与えないことを示していますが、モデルのサイズが大きくなると状況は異なる可能性があります。

再説明: ドアの追加効果
##
ソフトマックスを除去するためのこれまでの研究では、ゲーティングユニットを追加する方法が採用されていましたが、この方法は系列長に対応できません。具体的には、ゲートアテンションユニットには、出力射影の前に要素ごとの乗算の組み合わせによって得られる出力を生成する追加の射影があります。図 4 は、ゲートの存在により、シーケンス長の拡張である書き換えの必要性がなくなるかどうかを調べています。全体として、DeepMind は、シーケンス長の拡張という書き換えを必要とすることにより、ゲートの有無にかかわらず最高の精度が達成されることを観察しています。 ReLU を使用する S/8 モデルの場合、このゲートメカニズムにより、実験に必要なコア時間が約 9.3% 増加することにも注意してください。

以上がReLU はビジュアル Transformer のソフトマックスを置き換え、DeepMind の新しいトリックによりコストが急速に削減されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1666

CakePHP チュートリアル

1425

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1253

Related knowledge

Google Pixel 9 Pro XLはデスクトップモードでテストされる Aug 29, 2024 pm 01:09 PM

Google は、Pixel 8 シリーズで DisplayPort 代替モードを導入しており、新たに発売された Pixel 9 ラインナップにも搭載されています。これは主に、接続された画面でスマートフォンのディスプレイをミラーリングするためにありますが、デスクトップにも使用できます。

Google AI、開発者向けに Gemini 1.5 Pro と Gemma 2 を発表 Jul 01, 2024 am 07:22 AM

Google AI は、Gemini 1.5 Pro 大規模言語モデル (LLM) を皮切りに、拡張コンテキストウィンドウとコスト削減機能へのアクセスを開発者に提供し始めました。以前は待機リストを通じて利用可能でしたが、完全な 200 万トークンのコンテキストウィンドウが利用可能になりました

Pixel 9 Pro XL の Google Tensor G4 は原神で Tensor G2 に遅れをとっています Aug 24, 2024 am 06:43 AM

Googleは最近、Pixel 9ラインのTensor G4に関するパフォーマンスの懸念に対応しました。同社は、このSoCはベンチマークを上回るように設計されていないと述べた。代わりに、チームは Google が求めている分野でパフォーマンスを向上させることに重点を置きました。

Googleアプリのベータ版APK分解により、Gemini AIアシスタントに新たな拡張機能が追加されることが明らかになりました Jul 30, 2024 pm 01:06 PM

最新アップデート (v15.29.34.29 ベータ版) の APK 分解を考慮すると、Google の AI アシスタント Gemini はさらに高性能になる予定です。このテクノロジー巨人の新しい AI アシスタントには、いくつかの新しい拡張機能が追加される可能性があると伝えられています。これらの拡張機能は

Google Pixel 9スマートフォンは7年間のアップデート契約にもかかわらずAndroid 15では発売されない Aug 01, 2024 pm 02:56 PM

Pixel 9 シリーズは、8 月 13 日のリリースが予定されており、もうすぐ登場します。最近の噂によると、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XLは、128 GBのストレージから始まるPixel 8とPixel 8 Pro（Amazonで現在749ドル）をミラーリングします。

Googleの新しいChromecast「TV Streamer」は、イーサネットとスレッド接続を備えて発売されると噂されている Aug 01, 2024 am 10:21 AM

Googleが新しいハードウェアを完全に公開するまでにおよそ2週間かかる。いつものように、Pixel Watch 3、Pixel Buds Pro 2、Pixel 9 スマートフォンなど、数え切れないほどの情報源が新しい Pixel デバイスの詳細をリークしています。同社もそうらしい

流出した Google Pixel 9 の広告には、「Add Me」カメラ機能を含む新しい AI 機能が示されています Jul 30, 2024 am 11:18 AM

Pixel 9 シリーズに関連するさらなるプロモーション資料がオンラインに流出しました。参考までに、新たなリークは、91mobiles が Pixel Buds Pro 2 と Pixel Watch 3 または Pixel Watch 3 XL も紹介した複数の画像を共有した直後に到着しました。この時