PromptPG: 強化学習が大規模言語モデルと出会うとき
数学的推論は人間の知性の中核となる能力ですが、抽象的思考と論理的推論は依然として機械にとって大きな課題です。 GPT-3 や GPT-4 などの大規模な事前トレーニング済み言語モデルは、テキストベースの数学的推論 (数学的な文章題など) において大幅な進歩を遂げました。ただし、これらのモデルが表形式データなどの異種情報を含むより複雑な問題を処理できるかどうかは現時点では不明です。このギャップを埋めるために、UCLA とアレン人工知能研究所 (AI2) の研究者は、表形式の数学単語問題 (TabMWP) を立ち上げました。これは、テキストと表形式データに対する数学的推論の両方を必要とする 38,431 のオープンドメイン問題のデータセットであり、正しい問題を導き出す必要があります。答え。 TabMWP の各質問は、構造化された形式の画像、テキスト、または表を含むコンテキストに関連付けられています。
研究者は、Few-shot GPT-3 を含む、TabMWP 上のさまざまな事前トレーニング済みモデルを評価しました。既存の研究でわかっているように、Few-shot GPT-3 はコンテキスト内のサンプルの選択に大きく依存しているため、サンプルがランダムに選択されるとパフォーマンスが非常に不安定になります。 TabMWP のような複雑な推論問題を扱う場合、この不安定性はさらに深刻になります。この問題を解決するために、著者は PromptPG 法を提案しました。これは、例の選択を強化学習におけるコンテキスト バンディット問題に変換し、ポリシー勾配を使用してポリシー ネットワークをトレーニングし、少量のサンプルから最適なものを選択することを学習します。トレーニング データ - コンテキストの例。実験結果は、彼らが提案した PromptPG メソッドが質問への回答において最適なベースライン (少数ショット CoT GPT-3) を 5.31% 上回っており、コンテキスト内でランダムに選択された例と比較して、彼らのメソッドが問題を大幅に軽減していることを示しています。このタイプのメソッドの安定性。
- 紙のリンク: https://arxiv.org/abs/2209.14610
- # コードリンク: https://github.com/lupantech/PromptPG
- プロジェクトホームページ: https://promptpg.github.io
- データ視覚化: https://promptpg.github.io/explore #1. TabMWP データ セット
##TabMWP データ セットの 2 つの例を以下に示します。 1 つは数値で回答できる自由記述の質問で、もう 1 つはテキストで回答する多肢選択の質問です。ご覧のとおり、各質問には段階的な推論を含む解決策が示されています。 TabMWP の問題を解決するには、システムがテーブル検索と複数ステップの数学的推論の両方に対応できる必要があります。下の写真の例で、「(トレイシーが 3 種類のパンを買う場合) 彼女はいくら使うでしょう」と答えるには、まずテーブル内の 3 種類のパンの対応する価格を見つけてから、コストを計算する必要があります。それぞれの種類のパンを購入する際のコストを計算し、それらを合計して最終的なコストを計算します。
以下の表の統計に示されているように、TabMWP データ セットには 38,431 個の表形式の数学の問題が含まれています。質問の 74.7% は自由記述質問、25.3% は選択式質問でした。 TabMWP には、合計 28,876 個の固有の質問、6,153 個の固有の回答、および 35,442 個の固有の解決策があり、質問の分布が多様性に富んでいることがわかります。質問の平均長は 22.1 ワード、回答の平均長は 49.5 ワードで、TabMWP の語彙の豊富さを示しています。 TabMWP の際立った特徴は、各問題にはテーブル コンテキストが伴い、テーブル コンテキストなしでは問題を解決できないことです。 TabMWP には合計 37,644 の異なるテーブルがあり、テーブルの平均サイズは 5.9 行と 2.2 列、12.9 セル、最大 54 セルです。これらの統計は、TabMWP のテーブルも多様性に富んでいることを示しています。
#TabMWP データセットには、2 つの異なる質問タイプと 5 つの異なる回答タイプがあります。
TabMWP のすべての質問には表形式のコンテキストがあり、画像、半構造化テキスト、構造化という 3 つの形式で表されます。これにより、さまざまなタイプの推論モデルを開発する可能性が開かれます。
既存のデータ セットと比較して、TabMWP では、質問に答えるためにテーブルの理解と数学的推論の両方の能力が必要です。さらに、TabMWP には各質問に対して詳細な複数ステップの推論プロセスがあり、データ セットのサイズ、テーブルの種類、質問の種類、回答の種類において明らかな利点があります。この論文の知る限りでは、TabMWP はオープンドメインの表形式シナリオにおける最初の数学的推論データセットです。
2. PromptPG 法
GPT-3 などの大規模な事前学習済みモデルの数学的解決における成果の検討アプリケーションの問題 著者らはまず、少数ショット GPT-3 を使用して TabMWP のベンチマークを確立することに成功しました。彼らは、トレーニング セットおよびテスト例からいくつかの文脈上の例をランダムに選択して、GPT-3 に答えを予測するプロンプトを形成します。ただし、最近の研究では、ランダム選択に基づくこの種の少数ショット学習は、さまざまな状況に応じた例の選択では非常に不安定になる可能性があることが示されています。さまざまなタイプや形式のテーブルが関与する TabMWP のような複雑な推論問題を扱う場合、ランダム選択はさらに効果が低くなる可能性があります。
この問題を解決するために、著者は改良された方法を提案しました: ポリシー勾配による学習を促進し、少量のトレーニング データから状況に応じた例を選択することを学習します。 、PromptPG を呼び出しました。図 2 に示すように、ポリシー ネットワークは、コンテキスト内で最適なサンプルを候補プール (候補サンプル) から見つけることを学習します。その最適化の目標は、GPT と対話するときに特定のトレーニング サンプル (トレーニング サンプル) の予測を最大化することです。 -3 環境賞。例を選択するためのポリシー ネットワークは、固定パラメーターと学習可能なパラメーターを備えた単層ニューラル ネットワークに基づく BERT 言語モデルです。最適化学習が完了すると、PromptPG はさまざまなテスト問題の候補例からさまざまな最適例を動的に選択し、GPT-3 の推論パフォーマンスを最大化できます。
#PromptPG の学習アルゴリズムは次のとおりです。
事前トレーニングと微調整チューニング
表 3 は、PromptPG の結果と TabMWP データ セットのさまざまなベンチマークを比較しています。 TAPEX は、同様のパラメーター量を使用した表形式のデータで事前トレーニングを行っているため、UnifiedQA よりも優れたパフォーマンスを示していることがわかります。 TAPEX と UnifiedQA の両方で、モデル内のパラメーターの数を増やすと、予測の精度が向上します。さらに、TabMWP でモデルを微調整することで、予測の精度を大幅に向上させることもできます。
大規模言語モデル
微調整なしの GPT-3 (ゼロショット GPT-3) )、微調整された UnifiedQA および TAPEX モデルと同様の精度を達成できます。フューショット GPT-3 モデルが GPT-3 ヒントとしてコンテキスト内の 2 つの例をランダムに選択すると、ゼロショット GPT-3 と比較してさらに 0.17% 向上する可能性があります。最終的な答え (Few-shot-CoT GPT-3) を生成する前に、Few-shot GPT-3 に複数の中間ステップを生成させることで、研究者らは 62.92% の精度で最適なベースライン モデルを取得することができました。
プロンプトPG
この記事で提案されている PromptPG は、コンテキスト内のサンプルをランダムに選択するのとは異なり、Policy Gradient を通じてポリシー ネットワークをトレーニングして、より適切なコンテキスト内のサンプルを選択し、TabMWP で最高の予測結果 (68.23%) を達成しました。その平均予測精度は、最良のベースライン モデル (Few-shot-CoT GPT-3) を 5.31% 上回っています。特に、PromptPG は、ほぼすべての質問タイプ、回答タイプ、および質問の難易度において予測精度の優位性を示しています。それにもかかわらず、PromptPG には人間のパフォーマンスの 90.22% から改善の余地がまだたくさんあります。
アブレーション実験
表 4 は、TabMWP のすべての入力要素を示しています。 (質問テキスト、フォーム情報、オプション情報) はすべて、質問に正しく答えるために重要です。すべての問題要素を入力情報として使用した場合のみ、Zero-shot GPT-3 は比較的高い平均予測精度 (59.50%) を達成しました。
異なるサンプルの選択
研究者らは、比較実験として、次のことを行いました。異なるサンプルを選択した他の方法を比較しました。表 5 に示すように、テスト質問と同じ質問タイプまたは回答タイプを選択すると、モデルがより関連性の高い例を見つけやすくなり、回答の精度が向上します。最も複雑な例を選択しても、回答の精度が一貫して向上するわけではありません。候補例の中から 2 つの最良の例を固定的に選択すると、精度がわずかに向上し、分散が減少します。意味的にテスト問題に最も近い例を選択すると、PromptPG メソッドに最も近い精度が得られます。全体として、PromptPG は、予測精度の向上と予測の差異の削減における利点を十分に実証しました。
次の図は、PromptPG の選択と最終的な予測結果の例を示しています。 PromptPG メソッドは、テスト問題と同様の数学的能力を持つ例を選択することにより、Few-shot GPT-3 の推論パフォーマンスを向上させることができることがわかります。
#成功した予測の例
以下は、無料の PromptPG を示しています。テキストの質問に対する正しい答え。この質問では、表内の 8 つの数値を加算および除算して平均を求める必要があります。
次の例では、モデルは税務申告書を理解し、税控除後の給与を計算するように求められます。
以下は、多肢選択問題に対する PromptPG の正しい予測を示しています。指定されたテーブルには合計 9 行と 6 列があります。モデルはテーブル内のターゲット セルを正常に特定し、複数ステップの推論を実行して正解を予測します。
次の例では、モデルは予算と総コストを比較して、Ariana に十分な資金があるかどうかを確認する必要があります。
#予測失敗の例
以下はフリーテキスト用の PromptPG を示しています問題の予測の誤り。モデルはローズ クオーツの間違った価格を取得したため、3 つの品目の合計コストが誤って計算されました。次の例では、質問は抽象的な幹と葉のテーブルを提供します。モデルはこのドメイン固有のテーブルを理解できず、間違った答えを導き出すための高度な論理的推論機能が不足していました。 #次の例は、既存のモデルには数値を並べ替える機能がないようであることを示しています。 次の例では、質問に記載されている現在時刻と正確に一致する時刻がテーブルに表示されないため、モデルは正確に一致することができません。次回の時刻を検索する 1 つの停留所の出発時刻。 #次の例では、モデルが長い一連の数値の算術演算を正確に完了することが困難です。 著者は、表形式のコンテキストでの最初の数学的問題解決である TabMWP を提案しました。 -スケールデータセット。 TabMWP には、2 つの質問タイプと 5 つの回答タイプを含む 38,431 のオープンドメインの質問が含まれており、各質問には複数ステップの解決プロセスがマークされています。著者らは、最先端の QA および TableQA 手法を使用し、事前トレーニングおよび微調整された設定で TabMWP に関する包括的な実験を実施し、事前トレーニングされた大規模な言語モデル GPT-3 を使用して評価しました。著者はさらに、新しい強化学習手法 PromptPG を提案します。これは、ポリシー勾配学習を使用して、GPT-3 モデルをプロンプトするためのトレーニング データから最適なインスタンスを選択します。実験結果は、PromptPG が既存のベースラインを大幅に上回り、ランダム選択と比較して予測におけるパフォーマンスの不安定性を軽減することを示しています。 #4. 結論と展望
以上がPromptPG: 強化学習が大規模言語モデルと出会うときの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して
