不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

王林
リリース: 2023-04-09 13:31:06
転載
1050 人が閲覧しました

数千億のモデルの力を実証した GPT-3 の出現以来、NLP タスクはスケール、サンプル、パフォーマンスの微調整という不可能な三角形に直面してきました。パラメータが 10 億未満の言語モデルは、どのようにして SOTA のフューショット (またはゼロショット) およびファインチューニングのパフォーマンスを達成できるのでしょうか?ゼロショットシナリオを解決するには、何千億ものパラメータを用意し、不安定なプロンプトに耐えなければならないのでしょうか?この記事では、IDEA Research Institute Fengshenbang チームが、わずか 2 億パラメータでゼロショット SOTA を実現できる新しい「現象学的」UniMC を紹介します。関連作品がEMNLP 2022に採択されました。

は、今年の記事 [1] で、事前トレーニング技術が提案されて以来、NLP の世界には不可能な三角形が存在していると指摘しました (下の図 1)。同時に満たす条件:

  1. 中モデル サイズ (10 億未満);
  2. SOTA のフューショット (またはゼロショット)パフォーマンス ;
  3. SOTA のパフォーマンスの微調整。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

図 1

不可能な三角形が存在する理由はい、現在の事前トレーニング済みモデルのパラメーターの数はある桁に達するだけであり、ヒント学習を使用した場合にのみ、強力な少数/ゼロショットのパフォーマンスを実証できます。

当社の Fengshenbang チームが最近発表し、EMNLP 2022 に含まれている論文「統一された複数選択の視点による自然言語理解のためのゼロショット学習者」は、この「呪い」を打ち破り、A を提供します。柔軟で効率的なソリューション。私たちの 論文で提案されている UniMC には、非常に少数のモデル パラメーター (わずか数億) と SOTA の微調整機能があり、SOTA (5,400 億 PaLM に相当) も搭載できます。 -ショットパフォーマンス

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

  • 論文アドレス: https://arxiv.org/abs/2210.08590
  • モデルのオープンソース アドレス: https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/unimc/
技術的背景

2018 年の BERT の導入により、NLP 分野全体が事前トレーニングの時代に入り、NLP はついにさらなる進化を遂げました。踏み出す。 DeBERTa やその他の事前トレーニングされたマスク言語モデル (PMLM) などの既存のモデルは、すでに 10 億未満のパラメーターで SOTA の微調整を実現できますが、ゼロショット シナリオで NLU タスクに直面する場合には弱いです。

その理由は、図 2(c) に示すように、PMLM を使用する場合、特定のタスクのために最上位に MLP 層を追加する必要があるためです。さらに、この MLP レイヤーはパラメーターを追加するため、このメソッドはゼロショット シナリオに直面した場合にランダムな初期化のみを選択することになり、適切な出力を取得する方法はありません。さらに、微調整シナリオでは、MLP 層を追加すると、異なるタスク間での移行も不可能になります (たとえば、2 分類タスクと 3 分類タスクの間での移行は不可能になります)。

ゼロショット シナリオの場合、近年の主流のアプローチは、数百億、さらには数千億の事前トレーニング済み言語モデル (PLM) を使用して、NLU タスクをテキスト生成に均一に変換することです。これにより、図 2(a) に示すように、手動でプロンプトを構築したり言語化ツールを手動で設計したりすることで、大規模モデルをゼロショット タスクに適用できます。さらに、FLAN 論文では、図 2(b) に示すように、人工的に構築された多数のテンプレートを使用して異なるタスクを統合し、他のタスクの知識を特定のタスクに転送できます。ただし、このような生成モデルには次の欠点があります。

  • モデルを生成するには、バーバライザー (ラベルの説明) を生成する必要があり、バーバライザーは通常手動で作成されます。バーバライザーが異なると、パフォーマンスに大きな違いが生じます。
  • プロンプトも手動で設計する必要があります。プロンプトが異なると下流のタスクの効果に大きく影響します。
  • 生成モデルが推論する場合、答えを生成するために自己回帰が必要になりますが、これには時間がかかります。また、一般に一方向であり、BERT のような双方向の情報を取得することはできません。
  • 少数/ゼロショットのパフォーマンスを確保するために、生成されるモデル パラメーターの量が多くの場合、大量になります。 、GPT-3 の 1,750 億、または PaLM の 5,400 億に達します;
  • FLAN の命令チューニングは他のタスクから特定のタスクに知識を移すことができますが、異なるタスクに直面するには新しいトレーニングが必要です。たとえば、A を評価する場合は BCDE でトレーニングする必要があり、B を評価する場合は ACDE でトレーニングする必要があります。

我々は、図 2(d) の UniMC 手法を提案しました。これは、上記の問題を回避し、SOTA を達成するか、いくつかの中国の最先端技術に匹敵します。英語課題もあり、お手本のようなパフォーマンス。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

#図 2

UniMC (新しいモデル表現型)

モデルのアイデア

ほとんどの NLU タスクはラベルに基づいており、生成モデルはラベルを生成する必要があります。これは間違いなく、作業の難易度を高めます。モデルのタスクと学習コスト。多くのラベルベースのタスクでは、通常、入力テキストと、出力テキストが各ラベルに属する確率を与えるだけで済みます。この考えに基づいて、NLU タスクを多肢選択タスク (Multiple-Choice) に変換します。つまり、与えられたテキスト、質問、選択肢から、選択肢を生成せずに各選択肢の確率を出力します。

これに基づいて、我々は新しい概念を提案します: モデルの表現型。既存のモデル式は常に、分類レイヤーなどの特定のレイヤーを後で追加します。あるいは、生成されたモデル GPT の表現型は、プロンプトを通じてモデルの知識をマイニングすることになります。私たちが提案した UniMC ソリューションは、PMLM に追加の層を導入する必要がなく、PMLM の別の表現型を探索します。

このペーパーでは、バックボーン PMLM ネットワークとして ALBERT を選択します。

統一された複数選択形式

図 3 に示すように、すべてのラベルベースの NLU タスクを変換したいと考えています。統一された MC (Multiple-Choice) 形式に変換されます。私たちの哲学は、人間の情報はできる限り少なくすることです。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

図 3

具体的には、次の 2 つのステップを実行しました。

##ラベルをオプションに変更;
  • 質問プロンプトを追加するかどうかを選択します (質問は基本的にデータセットの説明から来ます) 。
  • 利点:

オプション プロンプトは 1 つだけ設計され、質問プロンプトは 1 つまたはまったく設計されません。

モデル構造

UniMC の構造を以下の図 4 に示します。これは同様の自己エンコーディングを使用します。 BERT 構造に。主なプロセスとしては、まず異なるタスクの入力を統合し、入力情報の流れを制限し、PMLM の後、O-MLM、OP、MLM を使用して MC トレーニングを行い、最後に O-MLM と OP を使用してゼロショット予測を行います。 。次に、ソリューションを段階的に説明します。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

#図 4

##入力入力

図 5 に示すように、赤い実線のボックス領域の内容。 UniMC に入力する前に、処理して UniMC 独自のトークン形式に変換する必要があります。計算効率を高めるため、すべての選択肢を質問とテキスト、つまり[選択肢、質問、文章]で直接つなぎ合わせます。そして、各オプションの前に特別なトークン [O-MASK] を挿入して、はいまたはいいえ (このオプションを選択するかどうか) を示します。 (再利用性を向上させるために、[MASK] トークンを再利用しました。

図 5 に示すように、緑色の点線のボックス領域の内容。入力情報源が多すぎて、選択肢情報、質問情報、テキストセグメント情報があります。これらの間の情報は相互に影響するため、異なる情報を分離したいと考えています。たとえば、入力時に他の選択肢が表示される場合、この質問の難易度は下がり、モデルは不活性になります。

そこで、次のことを考慮しました:

    セグメント ID を使用するモデルのオプションとコンテキスト (質問、文章) 情報が異なることを伝えるには、
  • #位置 ID を変更します。モデルは、異なるオプションの位置情報を同等に扱う必要があります。
  • アテンション マスク マトリックスを変更すると、モデルがさまざまなオプションに関する情報を参照できなくなり、モデルが不活性になります。
  • 図 5

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しましたモデルは多肢選択式の質問をどのように行うのですか? (O-MLM および OP)

図 6 に示すように、O -MLM タスクと OP タスクを使用して、モデルが答えを「選択」できるようにします。O-MASK は MASK トークンから完全に継承されます (特に、追加しないようにするため)。 O-MLM タスクの目標は、追加パラメータを追加し、教師なし事前トレーニング段階でモデルによって学習された知識を最大限に活用するため、MaskLM ヘッドのパラメータを再利用します。唯一の違いは、100% マスクされていることです。 O-MASK を「はい」または「いいえ」にデコードし、オプションが選択されているかどうかを予測するために使用されます。

OP タスクの役割は、答えを予測することです。各オプションの「はい」から具体的には、各 [O-MASK] 出力の「はい」を取得します logit を使用してソフトマックスを実行して各オプションの確率を取得し、最も確率の高いオプションを予測された答えとして選択します.

図 6

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました複数の MC タスクの処理1 つのバッチ

図 7 に示すように、複数の MC タスクを 1 つのバッチで処理したいと考えています。複数の MC データ セットをそれに入れることで、モデルの機能を強化し、バッチを構築しているときに、問題を発見しました: バッチ内に異なるオプションを持つサンプルがある場合はどうなるでしょうか?

#そこで、ロジット マスク メソッドを出力。無関係なトークンに負の無限大の予測値を直接割り当てて加算することで、ソフトマックスを計算する際の O-MASK への他のトークンの影響を排除できます。さらに、異なる数の多肢選択問題を 1 つのバッチで均一に処理できます。

##図 7

モデルのトレーニングと予測

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しましたMC トレーニング

#

FLAN の命令チューニングとは異なり、MC データ セットのみでトレーニングします。これは主に、モデルが多肢選択式の質問を行う方法を学習できるようにするためであり、MC データ セットには、さまざまな機能など、特定の汎用性があります。データ セットはさまざまな数のタグで構成されます。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

##図 8

##ゼロショット推論

興味深いことに、これら 2 つのタスクは、トレーニングとゼロショット推論の 2 つの段階で一貫していることがわかります。これは、O-MLM と OP という 2 つのタスクを使用して、モデルに多肢選択式の質問を実行させるためです。また、分類層を廃止したため、すべてのパラメータを再利用できるため、PMLM のゼロショット機能が有効になります。

##図 9不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

UniMC のパフォーマンス

英語のシナリオ

#事前トレーニング用に 14 個の多肢選択タスクを収集し、ゼロショット パフォーマンス テスト用に他の NLU タスクを実行しました。 UniMC は 4 つの NLI タスクで SOTA を達成し、5,400 億パラメータの PaLM モデルを超えています。

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました#図 10

そして私たちは 分類タスク ## で、バックボーンとして GPT-2 および GPT-3 を使用するネットワークを破りました。非常に難しい Dbpedia タスクでも、最大 13 カテゴリで、88.9% という超高精度を達成できます。

#図 11

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

#UNIMC の一般化を調査するには、FLANとの比較を行いました。ご覧のとおり、当社の UniMC は、ほぼすべてのタスクで FLAN を上回るか、それに近づくことができます。

写真 12

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

中国のシーン

中国のシナリオでは、40 個の教師付きデータ セットを収集し、それらを MC タスク フォームに統合して UniMC モデルを事前トレーニングし、FewCLUE と ZeroCLUE Test で 9 つのタスクを実行しました。 2022 年 8 月 30 日の時点で、

UniMC は FewCLUE リストと ZeroCLUE リストの両方で 1 位にランクされています。 (写真の Erlangshen - UnifiedMC は UniMC です)。

##図 13

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

##図 14

概要

不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しました

ゼロショット シナリオでの NLU タスクに対する新しいソリューションを、わずか数百個を使用して提案しました。数百万のパラメータを備えたこのモデルは、パラメータ数が 1,000 倍の複雑で大規模なモデルを打ち負かしました。

また、人為的な情報はほとんど紹介しておりません。また、BERT タイプのモデルの事前トレーニングと微調整の間の不一致の問題も克服され、トレーニングと予測は一貫しています。 1 つのトレーニングと複数のゼロショット予測を実行することもできるため、コンピューティング電力コストが大幅に節約されます。現在、IDEA Fengshenban チームは 70 を超える事前トレーニング済みの大規模モデルを立ち上げています。

  • モデル: https://huggingface.co/IDEA-CCNL
  • Fengshenlist全体論文(中国語と英語のバイリンガル): https://arxiv.org/abs/2209.02970
  • Fengshenbang ホームページ: https://github.com/ IDEA- CCNL/Fengshenbang-LM

引用

##[1]不可能な三角形: とは次は事前トレーニング済み言語モデルですか?https://readpaper.com/paper/4612531641570566145

以上が不可能な三角形を打ち破り、5,400 億のモデルと競合する IDEA Fengshen List チームは、2 億のモデルでのみゼロサンプル学習 SOTA を達成しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート