Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus-AI-php.cn

Periksa satu sama lain supaya model kecil dapat menyelesaikan masalah besar.

Seperti yang kita semua tahu, LLM berkuasa, tetapi keupayaannya untuk melakukan penaakulan yang kompleks tidak cukup kuat.

Sebagai contoh, pada set data GSM8K, Mistral-7B hanya boleh mencapai ketepatan 36.5% walaupun menggunakan teknologi seperti Chain of Thought (CoT). Walaupun penalaan halus sememangnya boleh meningkatkan keupayaan inferens dengan berkesan, kebanyakan LLM bergantung pada data penalaan halus yang telah disuling daripada model yang lebih berkuasa seperti GPT-4, atau mungkin telah disintesis oleh model berkuasa ini.

Pada masa yang sama, penyelidik juga sedang giat membangunkan kaedah bantu tetapi lebih sukar: menggunakan LLM guru yang lebih baik untuk meningkatkan keupayaan penaakulan.

Untuk meningkatkan keupayaan penaakulan tanpa model yang lebih baik, paradigma yang menjanjikan adalah untuk menggunakan pengetahuan dalam LLM itu sendiri. Sebagai contoh, kaedah yang dipanggil RAP mengguna pakai penyelesaian penerokaan sendiri yang secara berulang meningkatkan prestasi inferens LLM melalui maklum balas yang diberi ganjaran sendiri. Malangnya, kajian menunjukkan bahawa paradigma ini mempunyai dua masalah asas.

Pertama, apabila melakukan inferens, LLM sering mengalami kesukaran meneroka ruang penyelesaian secara berkesan. Pendekatan penerokaan kendiri ini sering terperangkap dalam ruang penyelesaian kerana langkah penaakulan berkualiti rendah, walaupun selepas beberapa percubaan.

Kedua, walaupun penerokaan kendiri mendapati langkah inferens berkualiti tinggi, adalah sukar bagi versi kecil model bahasa besar (SLM) untuk membezakan langkah inferens yang lebih berkualiti dan untuk menentukan sama ada jawapan akhir adalah betul, menyukarkan untuk membimbing Penerokaan Kendiri dengan berkesan. Penyelidikan menunjukkan bahawa penerokaan diri terpandu berdasarkan ganjaran tetap asas menghasilkan keputusan yang tidak lebih baik daripada meneka secara rawak.

Apa yang lebih menyusahkan ialah versi kecil model bahasa besar (SLM) lebih terdedah kepada dua masalah di atas kerana keupayaannya lebih teruk. Sebagai contoh, GPT-4 boleh meningkatkan hasil keluaran melalui pengoptimuman kendiri, tetapi sukar untuk SLM melakukan ini, malah boleh menyebabkan kualiti hasil keluaran menurun. Ini serius akan menghalang popularisasi dan aplikasi model bahasa saraf.

Sebagai tindak balas kepada masalah ini, pasukan penyelidik dari Microsoft Research Asia dan Harvard University mencadangkan Self-play muTuAl Reasoning, atau singkatannya rStar. Ringkasnya, kaedah ini adalah sama seperti meminta dua pelajar biasa-biasa sahaja untuk menyemak jawapan masing-masing untuk kertas peperiksaan, dan akhirnya meningkatkan markah mereka ke tahap di mana mereka boleh bersaing dengan ahli akademik terbaik. Pasukan itu mendakwa bahawa rStar "meningkatkan keupayaan inferens SLM tanpa memerlukan penalaan halus atau model yang lebih baik."

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

Tajuk kertas: Mutual Reasoning Jadikan LLM Yang Lebih Kecil Lebih Kuat Penyelesai Masalah
Alamat kertas: https://arxiv.org/pdf/2408.06195

Kaedah

Untuk menyelesaikan masalah di atas, pendekatan rStar adalah untuk membahagikan proses penaakulan kepada dua bahagian: penjanaan penyelesaian dan pengesahan bersama, seperti yang ditunjukkan dalam Rajah 2 .

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus Untuk teka-teki pertama, pasukan memperkenalkan koleksi tindakan penaakulan seperti manusia yang kaya yang meneroka pelbagai ruang tugas penaakulan yang berbeza.

Untuk masalah kedua, mereka mereka bentuk fungsi ganjaran khusus untuk SLM, yang boleh menilai langkah perantaraan untuk mengelakkan bergantung pada penilaian kendiri mereka yang sering tidak boleh dipercayai.

Selain itu, pasukan juga menggunakan SLM lain sebagai diskriminasi untuk meningkatkan proses MCTS, saling mengesahkan ketepatan setiap trajektori dengan SLM diskriminator.

Gunakan Pelancaran MCTS untuk menjana trajektori penaakulan sendiri

Satu koleksi tindakan penaakulan seperti manusia yang kaya. Teras penjanaan MCTS terletak pada ruang tindakan, yang mentakrifkan skop penerokaan pokok. Kebanyakan kaedah berasaskan MCTS menggunakan satu jenis tindakan apabila membina pokok. Sebagai contoh, tindakan dalam RAP adalah untuk bertanya sub-soalan seterusnya, manakala tindakan dalam AlphaMath dan MindStar adalah untuk menjana langkah penaakulan seterusnya. Walau bagaimanapun, bergantung pada satu jenis tindakan boleh membawa kepada penerokaan angkasa yang lemah.

Untuk menyelesaikan masalah ini, pasukan menyemak cara manusia melakukan penaakulan. Orang yang berbeza menyelesaikan masalah dengan cara yang berbeza: sesetengah orang memecahkan masalah kepada sub-masalah, yang lain menyelesaikan masalah secara langsung, dan yang lain menyusun semula masalah dari perspektif lain. Di samping itu, orang ramai juga akan menyesuaikan kaedah mereka mengikut keadaan semasa dan memilih tindakan yang berbeza mengikut keperluan.

Diinspirasikan oleh proses penaakulan manusia, pasukan itu membina set data yang lebih kaya yang mengandungi 5 jenis tindakan untuk memaksimumkan potensi SLM untuk menyelesaikan masalah penaakulan yang kompleks dengan betul.

アクション 1: 思考のステップを提案します。特定の問題に対して、このアクションにより、LLM は既存の推論ステップに基づいて次の思考ステップを生成します。

アクション 2: 残りのステップを提案します。このアクションは、標準的な CoT と同様に、わずか数ステップで単純な問題を解決する「素早い思考」を可能にします。生成された推論ステップが与えられると、最終的な答えが得られるまで LLM に残りのステップを直接生成させます。

アクション 3: 次の小質問とその答えを提案します。

アクション 4: このサブ質問にもう一度答えてください。アクション 3 が対応するサブ質問に正しく答えられない可能性があることを考慮すると、このアクションの役割は、それに再度答えることです。

アクション 5: 質問/サブ質問を再構成します。この新しい動きは、問題をより単純な方法で言い換えることです。具体的には、LLM に問題ステートメント内のすべての条件を明確にリストさせます。

上記の 5 つのアクションは、非常に多様なアクションスペース {A1、A2、A3、A4、A5} を定義します。

各ステップ i で、MCTS はこの空間からアクション a_i を選択します。このアクション a_i は、LLM が現在の状態 (つまり、以前に生成された軌道 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}) に基づいて次の推論ステップ s_i を生成するために使用されます。いくつかのアクションは順番に実行する必要があることに注意してください。図 3 に例を示します。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

表 1 に示すように、各アクションは最終的な推論精度の向上に重要な役割を果たします。 MCTS のもう 1 つの主要なコンポーネントは、各アクションの値を評価し、ツリーの拡張のための指示を提供する報酬関数です。 SLM のために、チームはシンプルだが効果的な報酬関数を設計しました。 AlphaGo からインスピレーションを得た彼らのアプローチは、最終的な正解への貢献度に基づいて各中間ノードをスコアリングします。こうすることで、正解が得られることが多いアクションはより高い報酬を受け取ることができ、将来の MCTS ツリーの拡張で選択される可能性が高くなります。

ここで、アクションaの実行後に生成されるノードsの報酬値をQ(s, a)と定義します。最初に、すべての未探索のノードには Q (s_i, a_i) = 0 が割り当てられ、ランダムなツリー展開が実現されます。最初のエンドノードn_dに到達すると、正解したか否かに基づいて報酬スコアQ(s_d,a_d)が計算される。 Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

その後、このスコアは軌道 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d に沿って各中間ノードに逆伝播されます。具体的には、各 s_i について、その Q 値が次のように更新されます: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d)。エンドノードの Q(s_d, a_d) を計算するために、ここで使用される報酬値は、自己矛盾のない多数決の尤度 (信頼度) です。

MCTS ロールアウトを使用したソリューションの生成

以下では、MCTS が候補推論軌道を生成する方法について説明します。最初のルートノード s_0 から開始して、選択、拡張、シミュレーション、バックプロパゲーションなどのさまざまな検索が実行されます。具体的には、シミュレーションではデフォルトのロールアウト戦略が使用されます。より正確な報酬の見積もりを得るために、チームは複数のロールアウトを実行します。探索と活用のバランスをとるために、よく知られている UCT (ツリーの上信頼限界) を使用して各ノードを選択します。この選択プロセスの数学的形式は次のとおりです:

ここで、N (s, a) は前の反復でノード s が訪問された回数、N_parent (s) はノード s への訪問回数を表します。の親ノード。 Q (s, a) は推定報酬値で、バックプロパゲーション中に更新されます。 c は、探索と活用のバランスを取る定数です。

検索が終了ノードに到達すると(終端状態である場合もあれば、事前に定義された最大ツリー深さdに到達する場合もあります)、ルートから終了ノードまでの軌跡を取得できます。ロールアウトの反復によって取得されたすべての軌跡が、候補解として収集されます。次に、それらを検証する必要があります。

相反性を使用して推論軌跡を選択

収集されたすべての軌跡に基づいて、チームは推論の一貫性を使用して答えを選択することを提案しています。

識別器 SLM を通じて推論の一貫性を達成

図 2 に示すように、ターゲット SLM In を除くさらに、チームはディスクリミネーター SLM も導入しました。この役割は、各候補軌道に対して教師なしの外部フィードバックを提供することです。

具体的には、 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d の場合、ランダムにサンプリングされたステップ i から始まる推論ステップをマスクします。次に、前の推論軌跡 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} が、残りのステップを完了するためのプロンプトとして識別器 SLM に提供されます。前の i-1 推論ステップがヒントとして使用されるため、難易度が軽減され、識別器 SLM が正しい答えを与える可能性が高くなります。

図 4 は、弁別器 SLM 完了の答えが元の軌道 t と一致するかどうかを比較しています。 2 つが一致する場合、 t は最終的に選択できる検証済みの軌道とみなされます。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

最終的な軌道はターゲット SLM によって選択されます。すべての候補軌道に推論コヒーレンスを適用した後、ターゲット SLM に戻り、検証された軌道から最終軌道を選択させます。各軌道の最終スコアを計算するために、チームはその報酬に、ロールアウトを通じて取得したエンドノードの信頼スコアを乗算しました。最終スコアが最も高い軌道が解決策として選択されます。

実験

実験設定

rStarはさまざまな用途に適していますLLM と推論タスク。チームは、Phi3-mini、LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct の 5 つの SLM を評価しました。

テストされた推論タスクは 5 つあり、その中には 4 つの数学タスク (GSM8K、GSM-Hard、MATH、SVAMP) と 1 つの常識タスク (StrategyQA) が含まれます。

実験の詳細については、元の論文を参照してください。

主な結果

チームはまず、一般推論ベンチマークで rStar の有効性を評価しました。表 2 は、さまざまな SLM および推論データセットにおける rStar と他の最先端の手法の精度を比較しています。新しいジェネレーターの有効性を実証するために、チームは、判別器を使用せず、多数決のみを使用して答えを検証する rStar (ジェネレーター @maj) の精度も提供します。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

チームは、rStar Stronger を活用した SLM の問題解決機能の 3 つを指摘しました。たとえば、GSM8K データセットでは、少数サンプル CoT を使用した LLaMA2-7B の精度はわずか 12.51% です。しかし、rStar の助けにより、その精度は 63.91% まで向上し、図 1 に示すように、微調整を使用して得られる精度に近づきました。同様に、rStar を使用した Mistral は、MetaMath の微調整バージョンを 4.18% 上回りました。このような改善は、SLM 自体がすでに強力な推論能力を備えていることを示していますが、正しい答えを生成して選択するにはガイダンスが必要です。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus 2.rStar は、さまざまなタスクで評価されたさまざまな SLM の推論精度を安定して現在の最高レベルまで向上させることができます。これに比べて、他の比較方法では、4 つのベンチマークすべてで一貫して優れたパフォーマンスを達成することはできません。たとえば、SC (自己一貫性) は 3 つの数学タスクには優れていますが、StrategyQA の論理的推論タスクを解決するには効果的ではありません。

3. 推論軌跡を検証するための新しく提案された識別器がなくても、新しく提案された MCTS ジェネレーターは、SLM の推論精度を向上させるのに依然としてうまく機能します。たとえば、GSM8K データセットでは、rStar (ジェネレーター @maj) の精度は、RAP より 2.88% ～ 16.39% 高く、ToT より 10.60% ～ 38.37% 高く、SC より 1.69% ～ 7.34% 高くなります。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

アブレーション研究

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus ここでは 2 つの重要な観察が行われます:

1 ロールアウトが 2 つしかない場合でも、rStar は SLM の精度を大幅に向上させることができます。

2. ロールアウトは、それが多ければ rStar と SC の両方に有益ですが、RAP は 4 回のロールアウト後に飽和するか、減少する傾向があります。理由の 1 つは、RAP の単一タイプのアクションスペースが MCTS 探索の有効性を制限していることです。研究チームは、MCTS ジェネレータと他の 3 つのジェネレータデバイスの効果を比較しました。表 4 に示すように、新しく提案された MCTS 発生器は他の発生器よりも全体的に優れています。さらに、自己評価によって新しいジェネレータの精度が低下するため、SLM 用に調整された報酬関数の有効性が実証されています。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

識別器の有効性

チームは2つの評価実験を設定しました。

最初の実験は、識別方法と多数決および自己検証方法を比較することです。結果は表 5 (左) に示されており、識別方法の利点が非常に大きいことがわかります。

Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus

2 番目の実験は、さまざまな識別器モデルの影響を研究することです。結果を表 5 (右) に示します。通常、異なる識別器モデルを選択しても、答えを検証するための推論コヒーレンス法の効果には影響を与えないことがわかります。強力な GPT-4 を識別器として使用しても、パフォーマンスはわずかに向上するだけであることに注意してください (91.13% から 92.57%)。これは、推論コヒーレンス法が SLM を効果的に使用して答えを検証できることを示しています。

Atas ialah kandungan terperinci Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!