目次
1. 典型的な問題 - ニワトリとウサギが同じケージに入っている
2. GSM8K の質問
1. 回答拡張 (回答拡張):
ホームページ テクノロジー周辺機器 AI 逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

Oct 11, 2023 pm 04:13 PM
ai モデル

複雑な数的推論は、大規模な言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用されている数的推論データセットはサンプルサイズが限られており、問題の多様性が不十分であるため、「逆転の呪い」現象が発生しています。大規模な言語モデルでは、つまり、「A は B である」に基づいてトレーニングされた A 言語モデルを「B は A である」に一般化することはできません [1]。数学的推論タスクにおけるこの現象の具体的な形式は次のとおりです。数学的問題が与えられた場合、言語モデルは順推論を使用して問題を解決するのは得意ですが、逆推論で問題を解決する能力に欠けています。次の 2 つの例に示すように、数学の問題では逆推論が非常に一般的です。

1. 典型的な問題 - ニワトリとウサギが同じケージに入っている

  • 前向き推論: ケージには 23 羽のニワトリと 12 羽のウサギがいます。檻の中には頭が何本、足は何本あるのか聞いてください。
  • 逆の推論: 同じかごの中に数羽のニワトリとウサギがいます。上から数えると頭が 35 本、下から数えると足が 94 本あります。檻の中には鶏とウサギが何羽いますか?

2. GSM8K の質問

  • 前向き推論: ジェームズは、それぞれ 4 ポンドの牛肉を 5 パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?
  • 逆の推論: ジェームズは、1 ポンドあたり 4 ポンドの牛肉を x パック買います。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? 上の質問の答えが 110 であることがわかっている場合、未知の変数 x の値は何ですか?

フォワードサムを改善するには逆推論機能を実現するために、ケンブリッジ、香港科技大学、およびファーウェイの研究者は、一般的に使用される 2 つの数学的データ セット (GSM8K および MATH) に基づいた MetaMathQA データ セットを提案しました。高品質。 MetaMathQA は、大規模な言語モデルによって生成された 395K の順方向および逆方向の数学的な質問と回答のペアで構成されています。彼らは、MetaMathQA データ セットで LLaMA-2 を微調整して、数学的推論 (順方向および逆数) に焦点を当てた大規模な言語モデルである MetaMath を取得しました。これは、数学的推論データ セットで SOTA に到達しました。さまざまなスケールの MetaMathQA データセットと MetaMath モデルは、研究者による使用のためにオープンソース化されています。

逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

  • プロジェクトアドレス: https://meta-math.github.io/
  • 論文アドレス: https://arxiv.org/abs/2309.12284
  • データ アドレス: https://huggingface.co/datasets/meta-math/MetaMathQA
  • モデルアドレス: https://huggingface.co/meta-math
  • コードアドレス: https://github.com/meta-math/MetaMath
GSM8K-Backward データセットでは、逆推論実験を構築しました。実験結果は、SFT、RFT、WizardMath などの方法と比較して、現在の方法は逆推論問題でのパフォーマンスが低いことを示しています。対照的に、MetaMath モデルは、前方推論と後方推論の両方で優れたパフォーマンスを達成します。

#MetaMathQA には 4 つのデータ拡張メソッドが含まれています:

逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

1. 回答拡張 (回答拡張):

問題が与えられた場合、正しい結果を得ることができる思考の連鎖が、データ拡張として大規模な言語モデルを通じて生成されます。 逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

質問: ジェームズは、それぞれ 4 ポンドの牛肉を 5 パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?

答え: ジェームズは、それぞれ 4 ポンドの牛肉を 5 パック購入するので、合計 5 * 4 = 20 ポンドの牛肉を購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、彼は 20 * 5.50 ドルを支払います= $110。答えは: 110.2. 質問の言い換え (質問書き換えの強化):

  • 指定されたメタ質問、大規模な言語モデルを通じて問題を書き換え、データ拡張として正しい結果が得られる思考連鎖を生成します。
    • #質問: ジェームズが 1 ポンドあたり 5.50 ドルの重さ 4 ポンドの牛肉を 5 パック購入したときに支払った総額はいくらですか?
    • 答え: 牛肉の各パックの重さは 4 ポンドなので、5 パックの重さは合計 4 * 5 = 20 ポンドです。牛肉 1 ポンドあたりの価格は 5.50 ドルなので、20 ポンドの合計コストは 20 * 5.50 ドル = 110 ドルとなります。したがって、 James は合計 $110 を支払いました。答えは 110.

    ##3. FOBAR 質問 (FOBAR 逆質問拡張): #メタ質問が与えられた場合、マスク条件の数値は次のようになります。例:「上の質問に対する答えが 110 であることがわかっている場合、未知の変数 x の値は何ですか?」)。

      質問: ジェームズは、それぞれ 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? の答えがわかっている場合上の質問は 110 です。未知の変数 x の値は何ですか?
    • 答え: ジェームズはそれぞれ 4 ポンドの牛肉を x パック購入するため、合計 4 ポンドの牛肉を購入します。牛肉。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、牛肉の総コストは 5.50 * 4x = 22x です。総コストは 110 ドルと与えられているので、次のように書くことができます: 22x = 110。両辺を 22 で割ると、 x = 5 が得られます。x の値は 5 です。

    4. 自己確認の質問 (自己確認の逆質問の拡張): FOBAR に基づいて、逆問題部分を大規模な言語モデルを使用したステートメントに書き換えることによってデータ拡張が実行されます (書き換え例:「彼はいくら払いましたか?」(答えは 110) は「彼はいくら払いましたか?」に書き換えられました) 110インチを支払いました)。

      質問: ジェームズは、それぞれ 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼は 110 支払いました。未知の変数 x の値は何ですか? ?
    • 答え: この問題を解決するには、ジェームズが買った牛肉のパックの数を表す x の値を決定する必要があります。牛肉の各パックの重さは 4 ポンドで、コストは1 ポンドあたり 5.50 ドル。ジェームスが支払った合計金額は 110 ドルです。次のように方程式を設定できます: 牛肉のパック数 * パックあたりの重量 * ポンドあたりの価格 = 支払総額; x * 4 * $5.50 = $110; 単純化してみましょう。 x を解く: 4x * $5.50 = $110; 22x = $110; x を分離するには、方程式の両辺を 22 で割ります: 22x / 22 = $110 / 22; x = $5; x の値は 5.
    #実験結果

    逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

    逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする##2 つの一般的な数学における実験結果推論データ セット (GSM8K および MATH) は、MetaMath が既存のオープンソース LLM モデルよりもパフォーマンスが大幅に優れており、外部ツール (コード インタプリタなど) の使用を必要としないことを示しています。その中で、当社の MetaMath-7B モデルは、GSM8K で 66.5%、MATH で 19.8% の精度に達しており、同じスケールの最先端のモデルよりもそれぞれ 11.6% と 9.1% 高い精度を示しています。特に言及する価値があるのは、MetaMath-70B が GSM8K 上で GPT-3.5-Turbo を上回る 82.3% の精度を達成したことです。

    「表面配置の仮定」[2] によると、大規模な言語モデルの多くは事前トレーニングから得られ、下流のタスクからのデータは事前​​トレーニング中に学習された言語モデルの固有の機能を活性化します。したがって、これは 2 つの重要な疑問を引き起こします: (i) どのタイプのデータが潜在知識を最も効果的に活性化するのか、(ii) なぜあるデータセットが他のデータセットよりもそのような活性化に優れているのか?

    MetaMathQA が役立つのはなぜですか?思考連鎖データ (Perplexity) の品質の向上

    逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする#上図に示すように、研究者は Perplexity を計算しました。回答のみのデータ、GSM8K CoT、および MetaMathQA データセットのさまざまな部分に関する LLaMA-2-7B モデルの分析。 MetaMathQA データセットの混乱度は他の 2 つのデータセットよりも大幅に低く、これは学習可能性が高く、モデルの潜在的な知識を明らかにするのにより役立つ可能性があることを示しています

    MetaMathQA が役立つのはなぜですか?思考連鎖データの多様性を高める (Diversity)

    逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングする

    研究者らは、データの多様性の向上とモデルの精度の向上を比較することで、再定式化、FOBAR、SV による同量の拡張データの導入が有効であることを発見しました。大幅な多様性の向上が達成され、モデルの精度が大幅に向上しました。対照的に、回答拡張のみを使用すると、精度が大幅に飽和してしまいました。精度が飽和に達すると、AnsAug データを追加しても限られたパフォーマンスの向上しか得られません

以上が逆の考え方: MetaMath の新しい数学的推論言語モデルが大規模モデルをトレーニングするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SQLクリアテーブル:パフォーマンスの最適化のヒント SQLクリアテーブル:パフォーマンスの最適化のヒント Apr 09, 2025 pm 02:54 PM

SQLテーブルクリアパフォーマンスを改善するためのヒント:削除の代わりにTruncateテーブルを使用し、スペースを解放し、ID列をリセットします。カスケードの削除を防ぐために、外部のキーの制約を無効にします。トランザクションカプセル化操作を使用して、データの一貫性を確保します。バッチはビッグデータを削除し、制限で行数を制限します。クリアリング後にインデックスを再構築して、クエリ効率を改善します。

削除ステートメントを使用して、SQLテーブルをクリアします 削除ステートメントを使用して、SQLテーブルをクリアします Apr 09, 2025 pm 03:00 PM

はい、削除ステートメントを使用してSQLテーブルをクリアできます。手順は次のとおりです。クリアするテーブルの名前にtable_nameを置き換えます。

phpmyAdminはデータテーブルを作成します phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Redisメモリの断片化に対処する方法は? Redisメモリの断片化に対処する方法は? Apr 10, 2025 pm 02:24 PM

Redisメモリの断片化とは、再割り当てできない割り当てられたメモリ内に小さな自由領域の存在を指します。対処戦略には、Redisの再起動:メモリを完全にクリアしますが、サービスを割り当てます。データ構造の最適化:Redisに適した構造を使用して、メモリの割り当てとリリースの数を減らします。構成パラメーターの調整:ポリシーを使用して、最近使用されていないキー価値ペアを排除します。永続性メカニズムを使用します:データを定期的にバックアップし、Redisを再起動してフラグメントをクリーンアップします。メモリの使用量を監視する:問題をタイムリーに発見し、対策を講じる。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

Oracleデータベースの作成方法Oracleデータベースの作成方法 Oracleデータベースの作成方法Oracleデータベースの作成方法 Apr 11, 2025 pm 02:36 PM

Oracleデータベースを作成するには、一般的な方法はDBCAグラフィカルツールを使用することです。手順は次のとおりです。1。DBCAツールを使用してDBNAMEを設定してデータベース名を指定します。 2. SyspasswordとSystemPassWordを強力なパスワードに設定します。 3.文字セットとNationalCharactersetをAL32UTF8に設定します。 4.実際のニーズに応じて調整するようにMemorySizeとTableSpacesizeを設定します。 5. logfileパスを指定します。 高度な方法は、SQLコマンドを使用して手動で作成されますが、より複雑でエラーが発生しやすいです。 パスワードの強度、キャラクターセットの選択、表空間サイズ、メモリに注意してください

Redis ExporterサービスでRedis Dropletを監視します Redis ExporterサービスでRedis Dropletを監視します Apr 10, 2025 pm 01:36 PM

Redisデータベースの効果的な監視は、最適なパフォーマンスを維持し、潜在的なボトルネックを特定し、システム全体の信頼性を確保するために重要です。 Redis Exporter Serviceは、Prometheusを使用してRedisデータベースを監視するために設計された強力なユーティリティです。 このチュートリアルでは、Redis Exporterサービスの完全なセットアップと構成をガイドし、監視ソリューションをシームレスに構築します。このチュートリアルを研究することにより、完全に動作する監視設定を実現します

Redisメモリ構成パラメーターとは何ですか? Redisメモリ構成パラメーターとは何ですか? Apr 10, 2025 pm 02:03 PM

** Redisメモリ構成のコアパラメーターはMaxMemoryであり、Redisが使用できるメモリの量を制限します。この制限を超えると、Redisは、Maxmemory-Policyに従って除去戦略を実行します。これには、次のようになります。その他の関連パラメーターには、Maxmemory-Samples(LRUサンプル量)、RDB圧縮が含まれます

See all articles