PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新-AI-php.cn

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2023-04-12 15:37:09

転載

1193 人が閲覧しました

大規模な言語モデルは、1,750 億のパラメータをもつ GPT-3 や 5,400 億のパラメータをもつ PaLM など、現代の自然言語処理技術の基礎と言えます。事前トレーニングモデルは非常に強力な数回の学習を提供します。下流のタスクの能力。

しかし、推論タスクは依然として難しい問題であり、特に正しい答えを得るために複数のステップからなる推論が必要な問題は依然として困難です。

最近、研究者らは、適切に設計されたプロンプトがモデルを誘導して最終的な答えを生成するための複数ステップの推論を実行できる限り、この方法は思考連鎖推論とも呼ばれることを発見しました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

思考連鎖テクノロジーにより、算術ベンチマーク GSM8K の精度が 17.9% から 58.1% に向上しました。その後導入された投票の自己一貫性メカニズムにより、さらに精度が向上しました。74.4 に向上しました。 %

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

簡単に言えば、複雑な推論タスクには、通常、正しい答えを得ることができる複数の推論パスがあります。自己一貫性のあるメソッドは、思考チェーン A セットを通じて言語モデルからサンプルを取得します。さまざまな推論パスを選択し、その中で最も一貫した答えが返されます。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

最近、北京大学とマイクロソフトの研究者らは、3 つの主要な革新ポイントを含む新しい自己一貫性のある手法 DiVeRSe に基づいて、モデルの推論機能をさらに向上させました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

論文のリンク: https://arxiv.org/abs/2206.02336

コードのリンク: https://github.com/microsoft/DiVerSe

まず、「異なるアイデア、同じ答え」という一貫性のあるアプローチ、つまり言語モデルから異なる推論パスをサンプリングするというアプローチに触発された DiVeRSe は、「すべての道」の原則に従い、多様性においてさらに一歩前進します。ローマに導く」このアイデアは、複数のプロンプトを使用して回答を生成することで、より完全で補完的な回答を生成できるということです。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

研究者は、まず各質問に対して 5 つの異なるプロンプトを提供し、次に各プロンプトに対して 20 の推論パスをサンプリングし、最後に各プロンプトに対して 100 の解決策の推論パスを生成します。質問。

重要な問題は、さまざまなプロンプトを取得する方法です。サンプルライブラリを取得した後、そこから K 個のサンプルをサンプリングしてプロンプトを構築し、それを 5 回繰り返すことができると仮定します。

If thereサンプルが十分ではない場合は、自己学習を使用してプロンプト多様性を改善します。つまり、サンプルの一部から疑似推論パスとペアを生成します。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

第 2 に、推論パスを生成するときに、前のステップでのエラーを修正するメカニズムが言語モデルにないため、最終的な予測結果に混乱が生じる可能性があります。 DiVeRSe は、投票メカニズムをガイドする各推論パスの正しさを検証する検証者のアイデアを活用しています。つまり、すべての推論メカニズムが同じように重要または優れているわけではありません。

質問に対して 100 の推論パスがあり、そのうち 60 の結果が「答えは 110」で、40 の結果が「答えは 150」であるとします。バリデータ (つまり、元の自己矛盾のない方法) がなければ、「答えは 110 です」が多数決となるため、110 を最終的な答えとして扱い、結果が 150 になる 40 の推論パスを削除できます。

verifier は推論パスをスコアリングします。関数 f は 2 分類器によってトレーニングされます。入力は質問 x、パス z、回答 y で、出力は肯定的な確率です。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

検証器では、「答えは 110 です」の 60 の推論パスの平均スコアが 0.3 であると仮定し、「答えは 110 です」の 40 の推論パスの平均スコアは 0.3 であると仮定します。 150インチは0.8です。 40*0.8>60*0.3

であるため、最終的な答えは 150 になるはずです。第三に、答えは複数の推論ステップに基づいて生成されるため、パスが正しい答えを生成する場合、そのパスはすべてのステップであると考えることができます。最終的な正確さに貢献します。ただし、間違った答えが生成されたとしても、それはすべてのステップが間違っていた、またはエラーの一因となったことを意味するわけではありません。

言い換えれば、結果が間違っていても、いくつかの中間ステップは依然として正しい可能性がありますが、その後のいくつかの逸脱ステップが最終的に間違った答えにつながります。 DiVeRSe は、各ステップにきめ細かいラベルを割り当てるメカニズムを設計し、ステップを認識した検証機能を提案し、最終的な答えだけを見るのではなく、各ステップの推論に正しさを割り当てました。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

本体は依然として 2 つの分類子ですが、重要な問題は、最終的な答えが間違っている場合、人間の手を介さずにステップレベルのネガティブラベルを取得する方法です。どのステップが間違っていたのかはわかりませんが、プロセスは正しいはずです。

研究者らはサポートの概念を提案しました。たとえば、算術タスクでは、中間ステップの結果と同じ、別の例の中間結果が必要です。

PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

これら 3 つの改善点に基づいて、研究者らは 5 つの算術推論データセットで実験を実施しました。code-davinci-002 に基づく DiVeRSe メソッドは、新しい SOTA アルゴリズムの平均改善率は 6.2% です。)、その理由は、常識推論タスクがオープンエンド生成タスクではなく多肢選択タスクであるため、偽陽性の疑似が多くなることが推測されます。 -例。

帰納的推論タスクでは、DiVeRSe は CLUTRR タスクで 95.9% のスコアを達成し、以前の SOTA 微調整結果 (28.9%) を上回りました PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

アブレーション実験では、次のことがわかります。投票検証メカニズムのパフォーマンスの向上は比較的明らかです。

# ほとんどの実験では、投票ベリファイアをステップ対応バージョンに拡張することでパフォーマンスを向上させることができます。 GSM8K 上の code-davinci-002 の場合、ステップ対応バージョンの Verifier によりパフォーマンスがわずかに低下します。

考えられる理由は、code-davinci-002 がより強力で、GSM8K の高品質な推論パスを生成できるため、ステップレベルの情報の必要性が減ります。つまり、text-davinci は short/推論パスは不完全ですが、code-davinci は成長するコンテンツの生成により適しています。 PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新

この論文の筆頭著者は Yifei Li です。彼は 2020 年にソフトウェアエンジニアリングの学士号を取得してノースイースタン大学を卒業し、現在北京大学で修士号取得に向けて勉強しています。大学での彼の主な研究方向は自然言語処理、特に大規模な言語モデルにおけるプロンプトチューニングと推論です。

この記事の 2 番目の著者は、Microsoft Research Asia の DKI 研究者である Zeqi Lin です。彼は 2014 年と 2019 年に北京大学からそれぞれ学士号と博士号を取得しました。彼の主な研究方向は機械学習とその機械学習です。ソフトウェア分析におけるアプリケーションとデータ分析におけるアプリケーションです。 PaLMを超えて！北京大学の修士が DiVeRSe を提案、NLP 推論ランキングを完全に刷新