Periksa satu sama lain supaya model kecil dapat menyelesaikan masalah besar.
Seperti yang kita semua tahu, LLM berkuasa, tetapi keupayaannya untuk melakukan penaakulan yang kompleks tidak cukup kuat.
Sebagai contoh, pada set data GSM8K, Mistral-7B hanya boleh mencapai ketepatan 36.5% walaupun menggunakan teknologi seperti Chain of Thought (CoT). Walaupun penalaan halus sememangnya boleh meningkatkan keupayaan inferens dengan berkesan, kebanyakan LLM bergantung pada data penalaan halus yang telah disuling daripada model yang lebih berkuasa seperti GPT-4, atau mungkin telah disintesis oleh model berkuasa ini.
Pada masa yang sama, penyelidik juga sedang giat membangunkan kaedah bantu tetapi lebih sukar: menggunakan LLM guru yang lebih baik untuk meningkatkan keupayaan penaakulan.
Untuk meningkatkan keupayaan penaakulan tanpa model yang lebih baik, paradigma yang menjanjikan adalah untuk menggunakan pengetahuan dalam LLM itu sendiri. Sebagai contoh, kaedah yang dipanggil RAP mengguna pakai penyelesaian penerokaan sendiri yang secara berulang meningkatkan prestasi inferens LLM melalui maklum balas yang diberi ganjaran sendiri. Malangnya, kajian menunjukkan bahawa paradigma ini mempunyai dua masalah asas.
Pertama, apabila melakukan inferens, LLM sering mengalami kesukaran meneroka ruang penyelesaian secara berkesan. Pendekatan penerokaan kendiri ini sering terperangkap dalam ruang penyelesaian kerana langkah penaakulan berkualiti rendah, walaupun selepas beberapa percubaan.
Kedua, walaupun penerokaan kendiri mendapati langkah inferens berkualiti tinggi, adalah sukar bagi versi kecil model bahasa besar (SLM) untuk membezakan langkah inferens yang lebih berkualiti dan untuk menentukan sama ada jawapan akhir adalah betul, menyukarkan untuk membimbing Penerokaan Kendiri dengan berkesan. Penyelidikan menunjukkan bahawa penerokaan diri terpandu berdasarkan ganjaran tetap asas menghasilkan keputusan yang tidak lebih baik daripada meneka secara rawak.
Apa yang lebih menyusahkan ialah versi kecil model bahasa besar (SLM) lebih terdedah kepada dua masalah di atas kerana keupayaannya lebih teruk. Sebagai contoh, GPT-4 boleh meningkatkan hasil keluaran melalui pengoptimuman kendiri, tetapi sukar untuk SLM melakukan ini, malah boleh menyebabkan kualiti hasil keluaran menurun. Ini serius akan menghalang popularisasi dan aplikasi model bahasa saraf.
Sebagai tindak balas kepada masalah ini, pasukan penyelidik dari Microsoft Research Asia dan Harvard University mencadangkan Self-play muTuAl Reasoning, atau singkatannya rStar. Ringkasnya, kaedah ini adalah sama seperti meminta dua pelajar biasa-biasa sahaja untuk menyemak jawapan masing-masing untuk kertas peperiksaan, dan akhirnya meningkatkan markah mereka ke tahap di mana mereka boleh bersaing dengan ahli akademik terbaik. Pasukan itu mendakwa bahawa rStar "meningkatkan keupayaan inferens SLM tanpa memerlukan penalaan halus atau model yang lebih baik."
Tajuk kertas: Mutual Reasoning Jadikan LLM Yang Lebih Kecil Lebih Kuat Penyelesai Masalah
Alamat kertas: https://arxiv.org/pdf/2408.06195
Untuk menyelesaikan masalah di atas, pendekatan rStar adalah untuk membahagikan proses penaakulan kepada dua bahagian: penjanaan penyelesaian dan pengesahan bersama, seperti yang ditunjukkan dalam Rajah 2 .
Untuk teka-teki pertama, pasukan memperkenalkan koleksi tindakan penaakulan seperti manusia yang kaya yang meneroka pelbagai ruang tugas penaakulan yang berbeza.
Untuk masalah kedua, mereka mereka bentuk fungsi ganjaran khusus untuk SLM, yang boleh menilai langkah perantaraan untuk mengelakkan bergantung pada penilaian kendiri mereka yang sering tidak boleh dipercayai.
Selain itu, pasukan juga menggunakan SLM lain sebagai diskriminasi untuk meningkatkan proses MCTS, saling mengesahkan ketepatan setiap trajektori dengan SLM diskriminator.
Gunakan Pelancaran MCTS untuk menjana trajektori penaakulan sendiriSatu koleksi tindakan penaakulan seperti manusia yang kaya. Teras penjanaan MCTS terletak pada ruang tindakan, yang mentakrifkan skop penerokaan pokok. Kebanyakan kaedah berasaskan MCTS menggunakan satu jenis tindakan apabila membina pokok. Sebagai contoh, tindakan dalam RAP adalah untuk bertanya sub-soalan seterusnya, manakala tindakan dalam AlphaMath dan MindStar adalah untuk menjana langkah penaakulan seterusnya. Walau bagaimanapun, bergantung pada satu jenis tindakan boleh membawa kepada penerokaan angkasa yang lemah.
Untuk menyelesaikan masalah ini, pasukan menyemak cara manusia melakukan penaakulan. Orang yang berbeza menyelesaikan masalah dengan cara yang berbeza: sesetengah orang memecahkan masalah kepada sub-masalah, yang lain menyelesaikan masalah secara langsung, dan yang lain menyusun semula masalah dari perspektif lain. Di samping itu, orang ramai juga akan menyesuaikan kaedah mereka mengikut keadaan semasa dan memilih tindakan yang berbeza mengikut keperluan.
Diinspirasikan oleh proses penaakulan manusia, pasukan itu membina set data yang lebih kaya yang mengandungi 5 jenis tindakan untuk memaksimumkan potensi SLM untuk menyelesaikan masalah penaakulan yang kompleks dengan betul.
上記の 5 つのアクションは、非常に多様なアクション スペース {A1、A2、A3、A4、A5} を定義します。
各ステップ i で、MCTS はこの空間からアクション a_i を選択します。このアクション a_i は、LLM が現在の状態 (つまり、以前に生成された軌道 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}) に基づいて次の推論ステップ s_i を生成するために使用されます。いくつかのアクションは順番に実行する必要があることに注意してください。図 3 に例を示します。
表 1 に示すように、各アクションは最終的な推論精度の向上に重要な役割を果たします。 MCTS のもう 1 つの主要なコンポーネントは、各アクションの値を評価し、ツリーの拡張のための指示を提供する報酬関数です。 SLM のために、チームはシンプルだが効果的な報酬関数を設計しました。 AlphaGo からインスピレーションを得た彼らのアプローチは、最終的な正解への貢献度に基づいて各中間ノードをスコアリングします。こうすることで、正解が得られることが多いアクションはより高い報酬を受け取ることができ、将来の MCTS ツリーの拡張で選択される可能性が高くなります。
ここで、アクションaの実行後に生成されるノードsの報酬値をQ(s, a)と定義します。最初に、すべての未探索のノードには Q (s_i, a_i) = 0 が割り当てられ、ランダムなツリー展開が実現されます。最初のエンドノードn_dに到達すると、正解したか否かに基づいて報酬スコアQ(s_d,a_d)が計算される。
その後、このスコアは軌道 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d に沿って各中間ノードに逆伝播されます。具体的には、各 s_i について、その Q 値が次のように更新されます: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d)。エンドノードの Q(s_d, a_d) を計算するために、ここで使用される報酬値は、自己矛盾のない多数決の尤度 (信頼度) です。相反性を使用して推論軌跡を選択
図 2 に示すように、ターゲット SLM In を除くさらに、チームはディスクリミネーター SLM も導入しました。この役割は、各候補軌道に対して教師なしの外部フィードバックを提供することです。
具体的には、 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d の場合、ランダムにサンプリングされたステップ i から始まる推論ステップをマスクします。次に、前の推論軌跡 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} が、残りのステップを完了するためのプロンプトとして識別器 SLM に提供されます。前の i-1 推論ステップがヒントとして使用されるため、難易度が軽減され、識別器 SLM が正しい答えを与える可能性が高くなります。図 4 は、弁別器 SLM 完了の答えが元の軌道 t と一致するかどうかを比較しています。 2 つが一致する場合、 t は最終的に選択できる検証済みの軌道とみなされます。
最終的な軌道はターゲット SLM によって選択されます。すべての候補軌道に推論コヒーレンスを適用した後、ターゲット SLM に戻り、検証された軌道から最終軌道を選択させます。各軌道の最終スコアを計算するために、チームはその報酬に、ロールアウトを通じて取得したエンドノードの信頼スコアを乗算しました。最終スコアが最も高い軌道が解決策として選択されます。
実験
実験設定
rStarはさまざまな用途に適していますLLM と推論タスク。チームは、Phi3-mini、LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct の 5 つの SLM を評価しました。
テストされた推論タスクは 5 つあり、その中には 4 つの数学タスク (GSM8K、GSM-Hard、MATH、SVAMP) と 1 つの常識タスク (StrategyQA) が含まれます。
実験の詳細については、元の論文を参照してください。
主な結果
チームはまず、一般推論ベンチマークで rStar の有効性を評価しました。表 2 は、さまざまな SLM および推論データセットにおける rStar と他の最先端の手法の精度を比較しています。新しいジェネレーターの有効性を実証するために、チームは、判別器を使用せず、多数決のみを使用して答えを検証する rStar (ジェネレーター @maj) の精度も提供します。
チームは、rStar Stronger を活用した SLM の問題解決機能の 3 つを指摘しました。たとえば、GSM8K データセットでは、少数サンプル CoT を使用した LLaMA2-7B の精度はわずか 12.51% です。しかし、rStar の助けにより、その精度は 63.91% まで向上し、図 1 に示すように、微調整を使用して得られる精度に近づきました。同様に、rStar を使用した Mistral は、MetaMath の微調整バージョンを 4.18% 上回りました。このような改善は、SLM 自体がすでに強力な推論能力を備えていることを示していますが、正しい答えを生成して選択するにはガイダンスが必要です。
2.rStar は、さまざまなタスクで評価されたさまざまな SLM の推論精度を安定して現在の最高レベルまで向上させることができます。これに比べて、他の比較方法では、4 つのベンチマークすべてで一貫して優れたパフォーマンスを達成することはできません。たとえば、SC (自己一貫性) は 3 つの数学タスクには優れていますが、StrategyQA の論理的推論タスクを解決するには効果的ではありません。
3. 推論軌跡を検証するための新しく提案された識別器がなくても、新しく提案された MCTS ジェネレーターは、SLM の推論精度を向上させるのに依然としてうまく機能します。たとえば、GSM8K データセットでは、rStar (ジェネレーター @maj) の精度は、RAP より 2.88% ~ 16.39% 高く、ToT より 10.60% ~ 38.37% 高く、SC より 1.69% ~ 7.34% 高くなります。
ここでは 2 つの重要な観察が行われます:
1 ロールアウトが 2 つしかない場合でも、rStar は SLM の精度を大幅に向上させることができます。
識別器の有効性
チームは2つの評価実験を設定しました。
最初の実験は、識別方法と多数決および自己検証方法を比較することです。結果は表 5 (左) に示されており、識別方法の利点が非常に大きいことがわかります。
2 番目の実験は、さまざまな識別器モデルの影響を研究することです。結果を表 5 (右) に示します。通常、異なる識別器モデルを選択しても、答えを検証するための推論コヒーレンス法の効果には影響を与えないことがわかります。強力な GPT-4 を識別器として使用しても、パフォーマンスはわずかに向上するだけであることに注意してください (91.13% から 92.57%)。これは、推論コヒーレンス法が SLM を効果的に使用して答えを検証できることを示しています。
Atas ialah kandungan terperinci Bolehkah kedua-dua model kecil itu mengesahkan satu sama lain dan terus membandingkan dengan model besar? rStar Microsoft tidak menggunakan CoT dan penalaan halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!