モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

WBOY
リリース: 2023-04-13 12:04:02
転載
1812 人が閲覧しました

言語モデルが大きくなるほど (パラメーターの数、使用される計算量、データセットのサイズがすべて大きくなり)、パフォーマンスが向上するように見えます。これは自然のスケーリングと呼ばれます。言語法。これは多くのミッションで真実であることが証明されています。

おそらく、モデルのサイズが大きくなるにつれて結果が悪化するタスクもいくつかあります。このようなタスクは逆スケーリングと呼ばれ、トレーニング データまたは最適化目標に何らかの欠陥があるかどうかを示すことができます。

今年、ニューヨーク大学の数人の研究者は、大規模モデルが苦手なタスクを探すという、より代替的なコンテストを企画しました。これらのタスクでは、言語モデルが大きくなるほど、パフォーマンスが低下します。

Inverse Scaling タスクの特定に全員が参加することを奨励するために、Inverse Scaling Award を創設しました。優勝した提出タスクには 250,000 ドルの賞金が贈られます。賞を発行する専門家は、一連の基準に基づいて提出物を評価します。基準には、逆スケーリングの強度、タスクの重要性、新規性、タスクの範囲、再現性、および逆スケーリングの一般化可能性が含まれます。

コンテストは 2 ラウンドあり、第 1 ラウンドの締め切りは 2022 年 8 月 27 日、第 2 ラウンドの締め切りは 2022 年 10 月 27 日です。 2 つのラウンドのうちの最初のラウンドでは 43 件の提出があり、そのうち 4 件のタスクが 3 位に選ばれ、最終的な Inverse Scaling ベンチマークに含まれます。

#関連する研究結果は、Google の数人の研究者によって論文にまとめられています。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

#論文リンク: https://arxiv.org/pdf/2211.02011.pdf

これら 4 つのタスクの逆スケーリングは 3 つの言語で適用されます モデル、モデルのパラメーターゴーファー (42M ~ 280B)、チンチラ (400M ~ 70B)、および人類の内部モデル (13M ~ 52B) の 3 桁にわたる規模です。逆スケーリングの報酬を獲得できるタスクは、否定 QA、後知恵の無視、引用の繰り返し、および数学の再定義です。関連するタスクの例を図 1 に示します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

#この論文では、著者はこれら 4 つのタスクのスケーリング パフォーマンスについて詳細な調査を実施しました。

著者らは最初に PaLM-540B モデルの評価を実行しました。このモデルは、Inverse Scaling award の応募で評価されたモデルよりも 5 倍の計算量を要します。 PaLM-540Bとの比較では、4つのタスクのうち3つがいわゆるU字型スケーリングを示していることがわかりました。モデルのサイズが大きくなるにつれて、最初はパフォーマンスが一定のレベルまで低下し、その後、モデルのサイズが大きくなるにつれてパフォーマンスが再び向上しました。増加した、上昇した。

著者は、タスクに「真のタスク」と「邪魔なタスク」の両方が含まれる場合、U 字型のスケーリングが発生すると考えています。中規模のモデルは「気が散るタスク」を実行してパフォーマンスに影響を与える可能性がありますが、より大きなモデルは「気が散るタスク」を無視して「真のタスク」を実行できる可能性があります。 U 字型スケーリングに関する著者らの発見は、数学的定理を特定する TruthfulQA などの BIG-Bench タスクの結果と一致しています。 U 字型スケーリングの意味は、パフォーマンスが低下し続けるか、パフォーマンスが上昇し始める可能性があるため、逆スケーリング曲線が大規模なモデルでは機能しない可能性があることです。

著者らは次に、思考連鎖 (CoT) のプロンプトによってこれらのタスクの規模が変化するかどうかを調査しました。 CoT のないプロンプトと比較して、CoT のあるプロンプトはモデルにタスクを中間ステップに分割する動機を与えます。著者の実験によると、CoT を使用すると、3 つの U 字型スケーリング タスクのうち 2 つがポジティブ スケーリング カーブに変更され、残りのタスクが逆スケーリングからポジティブ スケーリングに変更されることがわかりました。 CoT のプロンプトを使用すると、大規模モデルは、Redefine Math の 2 つのタスクと 8 つのサブタスクのうち 7 つで 100% の精度を達成しました。

「逆スケーリング」という用語は、実際には明確ではないことがわかりました。あるプロンプトでは、特定のタスクが逆スケーリングである可能性がありますが、別のプロンプトでは、特定のタスクが逆スケーリングである可能性があるためです。正のスケーリングは、U 字型のスケーリングである場合もあります。

U 字型スケーリング

このパートでは、著者は元の論文で提案されている 8B、62B、および 540B Palm モデルを使用して、4 つの Inverse Scaling Award タスクで Palm モデルを評価します。パフォーマンスには、40B トークンでトレーニングされた 1B モデルも含まれます (計算量は約 0.2 zettaFLOP)。単一の Palm-540B には、逆スケーリング賞で評価された最大のモデル (Gopher-280B) の約 2 倍のパラメータと、約 2.5K zettaFLOP の計算量があります。これに対し、Chinchilla-70B の計算量はわずか 560 zettaFLOP です。

Inverse Scaling Award のデフォルト設定に従うことに加えて、作成者は、自由形式の生成 (その後に正確な文字列一致、ランクなし) を使用するなど、小さな変更も加えました。分類)、プロンプトの 2 つの可能な継続の確率を比較します。また、作成者は、自由形式の生成に適応するためにプロンプ​​トに小さな変更を加えました。つまり、すべてのプロンプトは少なくとも 1 回限りであり、入力プロンプトに回答オプションが提供されます。プロンプトを使用すると、モデルは「答えは」を出力できます。

#具体的なフォームを図 1 に示します。著者らは、この形式主義がプロンプトに関する最近の研究と一致しており、以前に評価したモデルと PaLM 8B/62B の間で経験的なパフォーマンスが類似しているため、これは合理的であると考えています (この論文で著者が使用したすべてのプロンプトが利用可能です。)

図 2 は、ヤシ、人類、ホリネズミ、チンチラの 4 つのタスクにおける結果を示しています。


モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成


    #否定 QA タスクでは、Palm-62B の精度は Palm-8B モデルと比較して大幅に低下しましたが、Palm-540B の精度はモデルは再び改善されました;
  • 後知恵無視タスクでは、Palm-8B と Palm-62B の精度は乱数よりもはるかに低いレベルに低下しましたが、Palm-540B の精度は100% に達しました;
  • 見積反復タスクでは、精度は Palm-8B の 86% から Palm-62B の 81% に低下しましたが、Palm-540B では精度率が 100% に達しました。実際、Gopher モデルと Chinchilla モデルは、Quote Repetition タスクですでに U 字型のスケーリングの兆候を示しています。
これら 4 つのタスクの例外は数学の再定義です。Palm-540B を使用しても U 字型スケーリングの兆候は見られません。したがって、このタスクが現在存在する大規模モデルの U 字型スケーリングになるかどうかは不明です。それとも実際には逆スケーリングになるのでしょうか?

U 字型スケーリングに関する 1 つの質問は、「パフォーマンスが最初に低下し、その後上昇するのはなぜですか?」です。

著者は推測的な仮説を立てています。つまり、各逆スケーリング賞のタスクは 2 つのタスク (1)「真のタスク」と (2)「邪魔者」に分解できます。パフォーマンスタスクに影響します。」小規模モデルはこれら 2 つのタスクを完了できないため、ランダムな精度に近いパフォーマンスしか達成できません。中規模モデルは「気が散るタスク」を実行する可能性があり、パフォーマンスの低下を引き起こす可能性があります。大規模なモデルは、「気が散るタスク」を無視して「真のタスク」を実行して、パフォーマンスを向上させ、タスクを解決できる可能性があります。

図 5 は、潜在的な「気が散るタスク」を示しています。 「ディストラクタ タスク」のみでモデルのパフォーマンスをテストすることは可能ですが、「ディストラクタ タスク」と「真のタスク」は互いに競合するだけでなく、共同して影響を与える可能性があるため、これは不完全な除去実験となります。パフォーマンスについて。次に著者は、なぜ U 字型スケーリングが発生するのか、そして今後どのような作業を行う必要があるのか​​についてさらに説明します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成CoT プロンプトが逆スケーリングに及ぼす影響

次に、著者は、さまざまなタイプを使用した場合の逆スケーリング アワードの影響を調査します。 4 つのタスク間でスケーリングがどのように変化するか。 Inverse Scaling Award の開始者は、指示に少数のサンプルを含めるという基本的なプロンプト戦略を使用しましたが、思考連鎖 (CoT) インセンティブ モデルは、最終的な答えを与える前に中間ステップを出力します。これは、複数ステップの推論で使用できます。パフォーマンスを劇的に向上させます。つまり、CoT なしのプロンプトがモデルの機能の下限となります。一部のタスクでは、CoT のプロンプトがモデルの最高のパフォーマンスをよりよく表しています。

図 3 の上部は CoT プロンプトの例であり、下部は CoT プロンプトを使用した否定 QA、後知恵無視、および引用の繰り返しのパフォーマンスです。

否定 QA と後知恵無視の場合、CoT のプロンプトによりスケーリング カーブが U 字型から正の曲線に変更されます。 Quote Repetition の場合、CoT のプロンプトは依然として U 字型の曲線を示しますが、Palm-8B および Palm-62B のパフォーマンスは大幅に優れており、Palm-540B は 100% の精度を達成しています。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

図 4 は、CoT プロンプトによる数学の再定義の結果を示しています。このタスクは実際には 8 つのサブタスクで構成されており、それぞれに異なる命令が含まれているため、著者らはパフォーマンスをサブタスクごとに分割し、サブタスクが同じスケーリング動作を持つかどうかも調査しました。要約すると、CoT のプロンプトはすべてのサブタスクに対してポジティブ スケーリングを示し、Palm-62B および Palm-540B モデルの 8 つのサブタスクのうち 7 つで 100% の精度を達成しています。ただし、「数字として」および「乱数として」サブタスクでは、Palm-540B を使用した場合でも、明らかな逆スケーリング曲線が存在します。

モデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成

要約すると、調査したすべてのタスクとサブタスクは、CoT プロンプトを使用すると U 字型スケーリングまたはポジティブ スケーリングを示します。これは、no-CoT のプロンプト結果が無効であることを意味するのではなく、使用されるプロンプトの種類に応じてタスクのスケーリング曲線がどのように異なるかを強調することで、追加のニュアンスを提供します。つまり、同じタスクに、あるタイプのプロンプトには逆スケーリング曲線を設定し、別のタイプのプロンプトには U 字型スケーリングまたは正のスケーリングを設定することができます。したがって、「逆スケーリング タスク」という用語には明確な定義がありません。

以上がモデルが大きくなればなるほど、パフォーマンスは低下しますか? Google、大規模モデルをダウンさせるタスクを収集し、新しいベンチマークを作成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート