Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?
変圧器モデルのスケーリングは、近年多くの学者の研究への関心を引き起こしています。ただし、モデル アーキテクチャによって課されるさまざまな誘導バイアスのスケーリング特性についてはあまり知られていません。多くの場合、特定のスケール (計算、サイズなど) での改善は、異なるスケールや計算領域に移行できると想定されます。
ただし、アーキテクチャとスケーリングの法則の間の相互作用を理解することは非常に重要であり、さまざまなスケールで適切に動作するモデルを設計することは研究において非常に重要です。いくつかの疑問点は解明されていないままです: モデル アーキテクチャのスケールは異なりますか?もしそうなら、誘導バイアスはスケーリング性能にどのような影響を与えるのでしょうか?上流 (トレーニング前) および下流 (転送) タスクにどのような影響がありますか?
最近の論文で、Google の研究者は、言語モデルのスケーリングに対する帰納的バイアス (アーキテクチャ) の影響を理解しようと努めました。これを行うために、研究者らは、複数の計算領域とスケール (1,500 万から 400 億のパラメーター) にわたって 10 の異なるモデル アーキテクチャを事前トレーニングし、微調整しました。全体として、彼らはさまざまなアーキテクチャとサイズの 100 以上のモデルを事前トレーニングおよび微調整し、これら 10 の異なるアーキテクチャを拡張する際の洞察と課題を提示しました。
紙のリンク: https://arxiv.org/pdf/2207.10551.pdf
## また、これらのモデルのスケーリングは思ったほど単純ではないこと、つまり、スケーリングの複雑な詳細が、この記事で詳しく検討したアーキテクチャの選択と絡み合っていることにも注目しています。たとえば、Universal Transformers (および ALBERT) の機能の 1 つはパラメーターの共有です。このアーキテクチャ上の選択により、標準の Transformer と比較して、パフォーマンスの点だけでなく、FLOP、速度、パラメータ数などの計算メトリクスの点でも、スケーリング動作が大幅に歪められます。対照的に、スイッチ トランスのようなモデルはまったく異なり、FLOP とパラメータ量の間に異常な関係があります。 具体的には、この記事の主な貢献は次のとおりです。
さまざまな式の最初の導出帰納的バイアスとモデル アーキテクチャのスケーリング則
- 。研究者らは、このスケーリング係数がモデルによって大きく異なることを発見し、これがモデル開発における重要な考慮事項であると指摘しました。彼らが検討した 10 個のアーキテクチャすべての中で、コンピューティング領域ごとの絶対的な点で最高ではなかったとしても、バニラ Transformer が最高のスケーリング パフォーマンスを備えていたことが判明しました。 研究者らは、ある計算スケーリング領域でうまく機能するモデルが、別の計算スケーリング領域では必ずしも最適なモデルであるとは限らないことを観察しています。さらに、一部のモデルは低計算領域では良好なパフォーマンスを発揮するものの、スケーリングが難しいことも判明しました。これは、特定の計算領域内で点ごとに比較することによってモデルのスケーラビリティの全体像を把握することが困難であることを意味します。
- 研究者らは、 さまざまなモデル アーキテクチャのスケーリングに関しては、上流の事前トレーニングの複雑さは下流の転送にはあまり関係がない可能性があることを発見しました 。したがって、下流への移行には、基礎となるアーキテクチャと誘導バイアスも重要です。
- 研究者らは、特定のアーキテクチャ下でのスケーリングの難しさを強調し、一部のモデルがスケーリングしない (またはマイナスの傾向でスケーリングする) ことを示しました。彼らはまた、線形時間的注意モデル (Performer など) は拡張が難しい傾向があることも発見しました。 方法と実験
- 論文の 3 章では、研究者が全体的な実験セットアップの概要を説明し、実験で評価されたモデルを紹介します。
以下の表 1 は、トレーニング可能なパラメータの数、FLOP (シングルフォワードパス)、速度 (1 秒あたりのステップ数) など、この記事の主な結果を示しています。複雑性 (上流の事前トレーニング) と 17 の下流タスクの結果を検証します。
すべてのモデルは同じようにスケーリングされていますか?
以下の図 2 は、FLOP 数を増やしたときのすべてのモデルのスケーリング動作を示しています。すべてのモデルのスケーリング動作は非常にユニークで異なっていることがわかります。つまり、それらのほとんどは標準の Transformer とは異なります。おそらくここでの最大の発見は、ほとんどのモデル (LConv、Evolution など) が標準の Transformer と同等かそれ以上のパフォーマンスを示しているように見えますが、より高いコンピューティング バジェットでは拡張できないことです。
もう 1 つの興味深い傾向は、Performer などの「線形」トランスフォーマーがスケールしないことです。図 2i に示すように、基本スケールから大規模スケールに比べて、トレーニング前の複雑さは 2.7% しか低下しませんでした。バニラ トランスフォーマーの場合、この数字は 8.4% です。
以下の図 3 は、ダウンストリーム移行タスクにおけるすべてのモデルのスケーリング曲線を示しています。Transformer と比較すると、ほとんどのモデルで異なる点が見られます。スケーリング曲線は、下流のタスクで大幅に変化します。ほとんどのモデルには、上流または下流のスケーリング曲線が異なることに注意してください。
研究者らは、Funnel Transformer や LConv などの一部のモデルが上流では非常にうまく機能しているように見えても、下流では大きな影響を受けていることを発見しました。 Performer に関しては、上流と下流のパフォーマンスの差はさらに大きいようです。 SuperGLUE の下流タスクでは、エンコーダー上で疑似クロス アテンションが必要となることが多く、畳み込みなどのモデルでは処理できないことは注目に値します (Tay et al., 2021a)。
したがって、研究者らは、一部のモデルは上流のパフォーマンスが良好であっても、下流のタスクを学習するのが依然として難しい可能性があることを発見しました。
#最適なモデルはスケールごとに異なりますか?
以下の図 1 は、上流または下流のパフォーマンスの観点から計算した場合のパレート フロンティアを示しています。プロットの色はさまざまなモデルを表しており、スケールや計算領域ごとに最適なモデルが異なる可能性があることがわかります。さらに、これは上の図 3 でも確認できます。たとえば、Evolved Transformer は、極小領域 (下流) では標準 Transformer と同等のパフォーマンスを発揮するように見えますが、これはモデルをスケールアップするとすぐに変化します。研究者らは、MoS-Transformer でもこれを観察しました。MoS-Transformer は、一部の領域では通常の Transformer よりも大幅に優れたパフォーマンスを示しましたが、他の領域ではそうではありませんでした。
下の表 2 は、さまざまな状況における各モデルのフィッティングを示しています。 α線。研究者らは、F (FLOP)、U (上流のパープレキシティ)、D (下流の精度)、および P (パラメーターの数) をプロットすることで α を取得しました。一般に、α はモデルのスケーラビリティを表します。たとえば、α_F,U は上流のパフォーマンスに対して FLOP をプロットします。唯一の例外は α_U,D で、これは上流と下流のパフォーマンスの尺度であり、α_U,D 値が高いほど、下流のタスクに対するモデルのスケーリングが優れていることを意味します。全体として、アルファ値は、スケーリングと比較してモデルがどの程度優れたパフォーマンスを発揮するかを示す尺度です。
以下の図 4 は、4 つのモデル アーキテクチャ (MoS-Transformer、Transformer、Evolved Transformer、LConv) におけるスケーリング深度の影響を示しています。
深さのスケーリングは、幅のスケーリングと比較して、下流のスケーリングにはるかに大きな影響を与えることに注目する価値があります。 研究の詳細については、元の論文を参照してください。
以上がGoogle と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。
