モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成-AI-php.cn

U 字型スケーリング

ホームページ

テクノロジー周辺機器

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 12:04 PM

グーグルモデル

言語モデルが大きくなるほど (パラメーターの数、使用される計算量、データセットのサイズがすべて大きくなり)、パフォーマンスが向上するように見えます。これは自然のスケーリングと呼ばれます。言語法。これは多くのミッションで真実であることが証明されています。

おそらく、モデルのサイズが大きくなるにつれて結果が悪化するタスクもいくつかあります。このようなタスクは逆スケーリングと呼ばれ、トレーニングデータまたは最適化目標に何らかの欠陥があるかどうかを示すことができます。

今年、ニューヨーク大学の数人の研究者は、大規模モデルが苦手なタスクを探すという、より代替的なコンテストを企画しました。これらのタスクでは、言語モデルが大きくなるほど、パフォーマンスが低下します。

Inverse Scaling タスクの特定に全員が参加することを奨励するために、Inverse Scaling Award を創設しました。優勝した提出タスクには 250,000 ドルの賞金が贈られます。賞を発行する専門家は、一連の基準に基づいて提出物を評価します。基準には、逆スケーリングの強度、タスクの重要性、新規性、タスクの範囲、再現性、および逆スケーリングの一般化可能性が含まれます。

コンテストは 2 ラウンドあり、第 1 ラウンドの締め切りは 2022 年 8 月 27 日、第 2 ラウンドの締め切りは 2022 年 10 月 27 日です。 2 つのラウンドのうちの最初のラウンドでは 43 件の提出があり、そのうち 4 件のタスクが 3 位に選ばれ、最終的な Inverse Scaling ベンチマークに含まれます。

#関連する研究結果は、Google の数人の研究者によって論文にまとめられています。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

#論文リンク: https://arxiv.org/pdf/2211.02011.pdf

これら 4 つのタスクの逆スケーリングは 3 つの言語で適用されますモデル、モデルのパラメーターゴーファー (42M ～ 280B)、チンチラ (400M ～ 70B)、および人類の内部モデル (13M ～ 52B) の 3 桁にわたる規模です。逆スケーリングの報酬を獲得できるタスクは、否定 QA、後知恵の無視、引用の繰り返し、および数学の再定義です。関連するタスクの例を図 1 に示します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

#この論文では、著者はこれら 4 つのタスクのスケーリングパフォーマンスについて詳細な調査を実施しました。

著者らは最初に PaLM-540B モデルの評価を実行しました。このモデルは、Inverse Scaling award の応募で評価されたモデルよりも 5 倍の計算量を要します。 PaLM-540Bとの比較では、4つのタスクのうち3つがいわゆるU字型スケーリングを示していることがわかりました。モデルのサイズが大きくなるにつれて、最初はパフォーマンスが一定のレベルまで低下し、その後、モデルのサイズが大きくなるにつれてパフォーマンスが再び向上しました。増加した、上昇した。

著者は、タスクに「真のタスク」と「邪魔なタスク」の両方が含まれる場合、U 字型のスケーリングが発生すると考えています。中規模のモデルは「気が散るタスク」を実行してパフォーマンスに影響を与える可能性がありますが、より大きなモデルは「気が散るタスク」を無視して「真のタスク」を実行できる可能性があります。 U 字型スケーリングに関する著者らの発見は、数学的定理を特定する TruthfulQA などの BIG-Bench タスクの結果と一致しています。 U 字型スケーリングの意味は、パフォーマンスが低下し続けるか、パフォーマンスが上昇し始める可能性があるため、逆スケーリング曲線が大規模なモデルでは機能しない可能性があることです。

著者らは次に、思考連鎖 (CoT) のプロンプトによってこれらのタスクの規模が変化するかどうかを調査しました。 CoT のないプロンプトと比較して、CoT のあるプロンプトはモデルにタスクを中間ステップに分割する動機を与えます。著者の実験によると、CoT を使用すると、3 つの U 字型スケーリングタスクのうち 2 つがポジティブスケーリングカーブに変更され、残りのタスクが逆スケーリングからポジティブスケーリングに変更されることがわかりました。 CoT のプロンプトを使用すると、大規模モデルは、Redefine Math の 2 つのタスクと 8 つのサブタスクのうち 7 つで 100% の精度を達成しました。

「逆スケーリング」という用語は、実際には明確ではないことがわかりました。あるプロンプトでは、特定のタスクが逆スケーリングである可能性がありますが、別のプロンプトでは、特定のタスクが逆スケーリングである可能性があるためです。正のスケーリングは、U 字型のスケーリングである場合もあります。

U 字型スケーリング

このパートでは、著者は元の論文で提案されている 8B、62B、および 540B Palm モデルを使用して、4 つの Inverse Scaling Award タスクで Palm モデルを評価します。パフォーマンスには、40B トークンでトレーニングされた 1B モデルも含まれます (計算量は約 0.2 zettaFLOP)。単一の Palm-540B には、逆スケーリング賞で評価された最大のモデル (Gopher-280B) の約 2 倍のパラメータと、約 2.5K zettaFLOP の計算量があります。これに対し、Chinchilla-70B の計算量はわずか 560 zettaFLOP です。

Inverse Scaling Award のデフォルト設定に従うことに加えて、作成者は、自由形式の生成 (その後に正確な文字列一致、ランクなし) を使用するなど、小さな変更も加えました。分類)、プロンプトの 2 つの可能な継続の確率を比較します。また、作成者は、自由形式の生成に適応するためにプロンプトに小さな変更を加えました。つまり、すべてのプロンプトは少なくとも 1 回限りであり、入力プロンプトに回答オプションが提供されます。プロンプトを使用すると、モデルは「答えは」を出力できます。

#具体的なフォームを図 1 に示します。著者らは、この形式主義がプロンプトに関する最近の研究と一致しており、以前に評価したモデルと PaLM 8B/62B の間で経験的なパフォーマンスが類似しているため、これは合理的であると考えています (この論文で著者が使用したすべてのプロンプトが利用可能です。)

図 2 は、ヤシ、人類、ホリネズミ、チンチラの 4 つのタスクにおける結果を示しています。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

これら 4 つのタスクの例外は数学の再定義です。Palm-540B を使用しても U 字型スケーリングの兆候は見られません。したがって、このタスクが現在存在する大規模モデルの U 字型スケーリングになるかどうかは不明です。それとも実際には逆スケーリングになるのでしょうか？

U 字型スケーリングに関する 1 つの質問は、「パフォーマンスが最初に低下し、その後上昇するのはなぜですか?」です。

著者は推測的な仮説を立てています。つまり、各逆スケーリング賞のタスクは 2 つのタスク (1)「真のタスク」と (2)「邪魔者」に分解できます。パフォーマンスタスクに影響します。」小規模モデルはこれら 2 つのタスクを完了できないため、ランダムな精度に近いパフォーマンスしか達成できません。中規模モデルは「気が散るタスク」を実行する可能性があり、パフォーマンスの低下を引き起こす可能性があります。大規模なモデルは、「気が散るタスク」を無視して「真のタスク」を実行して、パフォーマンスを向上させ、タスクを解決できる可能性があります。

図 5 は、潜在的な「気が散るタスク」を示しています。「ディストラクタタスク」のみでモデルのパフォーマンスをテストすることは可能ですが、「ディストラクタタスク」と「真のタスク」は互いに競合するだけでなく、共同して影響を与える可能性があるため、これは不完全な除去実験となります。パフォーマンスについて。次に著者は、なぜ U 字型スケーリングが発生するのか、そして今後どのような作業を行う必要があるのかについてさらに説明します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成 CoT プロンプトが逆スケーリングに及ぼす影響

次に、著者は、さまざまなタイプを使用した場合の逆スケーリングアワードの影響を調査します。 4 つのタスク間でスケーリングがどのように変化するか。 Inverse Scaling Award の開始者は、指示に少数のサンプルを含めるという基本的なプロンプト戦略を使用しましたが、思考連鎖 (CoT) インセンティブモデルは、最終的な答えを与える前に中間ステップを出力します。これは、複数ステップの推論で使用できます。パフォーマンスを劇的に向上させます。つまり、CoT なしのプロンプトがモデルの機能の下限となります。一部のタスクでは、CoT のプロンプトがモデルの最高のパフォーマンスをよりよく表しています。

図 3 の上部は CoT プロンプトの例であり、下部は CoT プロンプトを使用した否定 QA、後知恵無視、および引用の繰り返しのパフォーマンスです。

否定 QA と後知恵無視の場合、CoT のプロンプトによりスケーリングカーブが U 字型から正の曲線に変更されます。 Quote Repetition の場合、CoT のプロンプトは依然として U 字型の曲線を示しますが、Palm-8B および Palm-62B のパフォーマンスは大幅に優れており、Palm-540B は 100% の精度を達成しています。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

図 4 は、CoT プロンプトによる数学の再定義の結果を示しています。このタスクは実際には 8 つのサブタスクで構成されており、それぞれに異なる命令が含まれているため、著者らはパフォーマンスをサブタスクごとに分割し、サブタスクが同じスケーリング動作を持つかどうかも調査しました。要約すると、CoT のプロンプトはすべてのサブタスクに対してポジティブスケーリングを示し、Palm-62B および Palm-540B モデルの 8 つのサブタスクのうち 7 つで 100% の精度を達成しています。ただし、「数字として」および「乱数として」サブタスクでは、Palm-540B を使用した場合でも、明らかな逆スケーリング曲線が存在します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

要約すると、調査したすべてのタスクとサブタスクは、CoT プロンプトを使用すると U 字型スケーリングまたはポジティブスケーリングを示します。これは、no-CoT のプロンプト結果が無効であることを意味するのではなく、使用されるプロンプトの種類に応じてタスクのスケーリング曲線がどのように異なるかを強調することで、追加のニュアンスを提供します。つまり、同じタスクに、あるタイプのプロンプトには逆スケーリング曲線を設定し、別のタイプのプロンプトには U 字型スケーリングまたは正のスケーリングを設定することができます。したがって、「逆スケーリングタスク」という用語には明確な定義がありません。

以上がモデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7487

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

2025年のBitgetの最新のダウンロードアドレス：公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

See all articles

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

U 字型スケーリング

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック