目次
以下の表 1 は、トレーニング可能なパラメータの数、FLOP (シングルフォワードパス)、速度 (1 秒あたりのステップ数) など、この記事の主な結果を示しています。複雑性 (上流の事前トレーニング) と 17 の下流タスクの結果を検証します。
すべてのモデルは同じようにスケーリングされていますか?
#最適なモデルはスケールごとに異なりますか?
ホームページ テクノロジー周辺機器 AI Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

Apr 09, 2023 pm 08:21 PM
グーグル モデル

変圧器モデルのスケーリングは、近年多くの学者の研究への関心を引き起こしています。ただし、モデル アーキテクチャによって課されるさまざまな誘導バイアスのスケーリング特性についてはあまり知られていません。多くの場合、特定のスケール (計算、サイズなど) での改善は、異なるスケールや計算領域に移行できると想定されます。

ただし、アーキテクチャとスケーリングの法則の間の相互作用を理解することは非常に重要であり、さまざまなスケールで適切に動作するモデルを設計することは研究において非常に重要です。いくつかの疑問点は解明されていないままです: モデル アーキテクチャのスケールは異なりますか?もしそうなら、誘導バイアスはスケーリング性能にどのような影響を与えるのでしょうか?上流 (トレーニング前) および下流 (転送) タスクにどのような影響がありますか?

最近の論文で、Google の研究者は、言語モデルのスケーリングに対する帰納的バイアス (アーキテクチャ) の影響を理解しようと努めました。これを行うために、研究者らは、複数の計算領域とスケール (1,500 万から 400 億のパラメーター) にわたって 10 の異なるモデル アーキテクチャを事前トレーニングし、微調整しました。全体として、彼らはさまざまなアーキテクチャとサイズの 100 以上のモデルを事前トレーニングおよび微調整し、これら 10 の異なるアーキテクチャを拡張する際の洞察と課題を提示しました。

紙のリンク: https://arxiv.org/pdf/2207.10551.pdfGoogle と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

## また、これらのモデルのスケーリングは思ったほど単純ではないこと、つまり、スケーリングの複雑な詳細が、この記事で詳しく検討したアーキテクチャの選択と絡み合っていることにも注目しています。たとえば、Universal Transformers (および ALBERT) の機能の 1 つはパラメーターの共有です。このアーキテクチャ上の選択により、標準の Transformer と比較して、パフォーマンスの点だけでなく、FLOP、速度、パラメータ数などの計算メトリクスの点でも、スケーリング動作が大幅に歪められます。対照的に、スイッチ トランスのようなモデルはまったく異なり、FLOP とパラメータ量の間に異常な関係があります。 具体的には、この記事の主な貢献は次のとおりです。

さまざまな式の最初の導出帰納的バイアスとモデル アーキテクチャのスケーリング則

  • 。研究者らは、このスケーリング係数がモデルによって大きく異なることを発見し、これがモデル開発における重要な考慮事項であると指摘しました。彼らが検討した 10 個のアーキテクチャすべての中で、コンピューティング領域ごとの絶対的な点で最高ではなかったとしても、バニラ Transformer が最高のスケーリング パフォーマンスを備えていたことが判明しました。 研究者らは、ある計算スケーリング領域でうまく機能するモデルが、別の計算スケーリング領域では必ずしも最適なモデルであるとは限らないことを観察しています。さらに、一部のモデルは低計算領域では良好なパフォーマンスを発揮するものの、スケーリングが難しいことも判明しました。これは、特定の計算領域内で点ごとに比較することによってモデルのスケーラビリティの全体像を把握することが困難であることを意味します。
  • 研究者らは、 さまざまなモデル アーキテクチャのスケーリングに関しては、上流の事前トレーニングの複雑さは下流の転送にはあまり関係がない可能性があることを発見しました 。したがって、下流への移行には、基礎となるアーキテクチャと誘導バイアスも重要です。
  • 研究者らは、特定のアーキテクチャ下でのスケーリングの難しさを強調し、一部のモデルがスケーリングしない (またはマイナスの傾向でスケーリングする) ことを示しました。彼らはまた、線形時間的注意モデル (Performer など) は拡張が難しい傾向があることも発見しました。 方法と実験
  • 論文の 3 章では、研究者が全体的な実験セットアップの概要を説明し、実験で評価されたモデルを紹介します。

以下の表 1 は、トレーニング可能なパラメータの数、FLOP (シングルフォワードパス)、速度 (1 秒あたりのステップ数) など、この記事の主な結果を示しています。複雑性 (上流の事前トレーニング) と 17 の下流タスクの結果を検証します。

すべてのモデルは同じようにスケーリングされていますか?

以下の図 2 は、FLOP 数を増やしたときのすべてのモデルのスケーリング動作を示しています。すべてのモデルのスケーリング動作は非常にユニークで異なっていることがわかります。つまり、それらのほとんどは標準の Transformer とは異なります。おそらくここでの最大の発見は、ほとんどのモデル (LConv、Evolution など) が標準の Transformer と同等かそれ以上のパフォーマンスを示しているように見えますが、より高いコンピューティング バジェットでは拡張できないことです。

もう 1 つの興味深い傾向は、Performer などの「線形」トランスフォーマーがスケールしないことです。図 2i に示すように、基本スケールから大規模スケールに比べて、トレーニング前の複雑さは 2.7% しか低下しませんでした。バニラ トランスフォーマーの場合、この数字は 8.4% です。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

以下の図 3 は、ダウンストリーム移行タスクにおけるすべてのモデルのスケーリング曲線を示しています。Transformer と比較すると、ほとんどのモデルで異なる点が見られます。スケーリング曲線は、下流のタスクで大幅に変化します。ほとんどのモデルには、上流または下流のスケーリング曲線が異なることに注意してください。

研究者らは、Funnel Transformer や LConv などの一部のモデルが上流では非常にうまく機能しているように見えても、下流では大きな影響を受けていることを発見しました。 Performer に関しては、上流と下流のパフォーマンスの差はさらに大きいようです。 SuperGLUE の下流タスクでは、エンコーダー上で疑似クロス アテンションが必要となることが多く、畳み込みなどのモデルでは処理できないことは注目に値します (Tay et al., 2021a)。

したがって、研究者らは、一部のモデルは上流のパフォーマンスが良好であっても、下流のタスクを学習するのが依然として難しい可能性があることを発見しました。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

#最適なモデルはスケールごとに異なりますか?

以下の図 1 は、上流または下流のパフォーマンスの観点から計算した場合のパレート フロンティアを示しています。プロットの色はさまざまなモデルを表しており、スケールや計算領域ごとに最適なモデルが異なる可能性があることがわかります。さらに、これは上の図 3 でも確認できます。たとえば、Evolved Transformer は、極小領域 (下流) では標準 Transformer と同等のパフォーマンスを発揮するように見えますが、これはモデルをスケールアップするとすぐに変化します。研究者らは、MoS-Transformer でもこれを観察しました。MoS-Transformer は、一部の領域では通常の Transformer よりも大幅に優れたパフォーマンスを示しましたが、他の領域ではそうではありませんでした。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

#各モデルのスケーリング則

下の表 2 は、さまざまな状況における各モデルのフィッティングを示しています。 α線。研究者らは、F (FLOP)、U (上流のパープレキシティ)、D (下流の精度)、および P (パラメーターの数) をプロットすることで α を取得しました。一般に、α はモデルのスケーラビリティを表します。たとえば、α_F,U は上流のパフォーマンスに対して FLOP をプロットします。唯一の例外は α_U,D で、これは上流と下流のパフォーマンスの尺度であり、α_U,D 値が高いほど、下流のタスクに対するモデルのスケーリングが優れていることを意味します。全体として、アルファ値は、スケーリングと比較してモデルがどの程度優れたパフォーマンスを発揮するかを示す尺度です。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

スケーリング プロトコルはモデル アーキテクチャに同じように影響しますか?

以下の図 4 は、4 つのモデル アーキテクチャ (MoS-Transformer、Transformer、Evolved Transformer、LConv) におけるスケーリング深度の影響を示しています。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

# 以下の図 5 は、同じ 4 つのアーキテクチャにわたるスケーリング幅の影響を示しています。まず、上流 (負の対数パープレキシティ) 曲線では、異なるアーキテクチャ間で絶対パフォーマンスに明らかな違いがあるにもかかわらず、スケーリング傾向は非常に類似していることがわかります。ダウンストリームでは、LConv を除き、ディープ スケーリング (上記の図 4) はほとんどのアーキテクチャで同様に機能するようです。また、Evolved Transformer は、幅のスケーリングに比べて幅のスケーリングの適用がわずかに優れているようです。

深さのスケーリングは、幅のスケーリングと比較して、下流のスケーリングにはるかに大きな影響を与えることに注目する価値があります。

Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

研究の詳細については、元の論文を参照してください。

以上がGoogle と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Deepseekをコメントする方法 Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

Binance Binance公式Webサイト最新バージョンログインポータル Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

See all articles