两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调-人工智能-PHP中文网

互相检查，让小模型也能解决大问题。

众所周知，LLM 很强大，但执行复杂推理的能力还不够强。

举个例子，在 GSM8K 数据集上，Mistral-7B 即使使用思维链（CoT）等技术，也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力，但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的，甚至可能原本就是这些强大模型合成的。

同时，研究者们也在积极开发一种能提供辅助但也更困难的方法：使用一个更优的教师 LLM 来提升推理能力。

为了在没有更优模型的前提下提升推理能力，一种颇有希望的范式是利用 LLM 自身之中的知识。举个例子，一种名为 RAP 的方法采用了一种自我探索式的解决方法，即通过自我奖励的反馈来迭代式地提升 LLM 的推理性能。不幸的是，研究表明这一范式具有两大根本性问题。

第一，在执行推理时，LLM 往往难以有效地探索解答空间。这种自我探索式方法往往会因推理步骤质量不佳而受困于某个解答空间，即使多次尝试也是如此。

第二，即使自我探索找到了高质量的推理步骤，小版本的大型语言模型（SLM）也难以辨别哪些推理步骤的质量更高，也难以确定最终答案是否正确，由此难以有效地引导自我探索。研究表明，基于基本的常规奖励的自我探索引导得到的结果并不比随机猜测更好。

更麻烦的是，小版本的大型语言模型（SLM）更容易出现上述两个问题，因为它们的能力更差一些。举个例子，GPT-4 能通过自我优化来提升输出结果，但 SLM 却很难做到这一点，甚至可能导致输出结果质量下降。这会严重妨碍神经语言模型的推广应用。

针对这些问题，微软亚洲研究院和哈佛大学的一个研究团队提出了 Self-play muTuAl Reasoning，即自博弈相互推理，简称 rStar。简单来说，该方法就类似于让两个学习平平的人互相检查考卷答案，最终提升得分，甚至达到比肩学霸的程度。该团队宣称 rStar 「无需微调或更优模型就能提升 SLM 的推理能力」。

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

论文标题：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
论文地址：https://arxiv.org/pdf/2408.06195
代码地址：https://github.com/zhentingqi/rStar （尚待发布）

方法

为了解决上述难题，rStar 的做法是将推理过程分成了解答生成和相互验证两部分，如图 2 所示。

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

针对第一个难题，该团队引入了一个集合，其中包含丰富的类似人类的推理动作，可透彻地探索多种不同的推理任务空间。

针对第二个难题，他们设计了一个专门针对 SLM 的奖励函数，这能对中间步骤进行评估，从而避免依赖它们那往往并不可靠的自我评估。

此外，该团队还使用了另一个 SLM 作为判别器来增强 MCTS 过程，与判别器 SLM 互相验证每条轨迹的正确性。

使用 MCTS Rollout 自己生成推理轨迹

一个包含丰富的类人推理动作的集合。MCTS 生成的核心在于动作空间，其定义了树探索的范围。大多数基于 MCTS 的方法在构建树时都使用了单一动作类型。比如 RAP 中的动作是提出下一个子问题，而 AlphaMath 和 MindStar 中的动作是生成下一推理步骤。但是，依赖单一动作类型可能容易导致空间探索效果不佳。

为了解决这个问题，该团队回顾了人类执行推理的方法。不同的人解决问题的方法也不同：某些人会将问题分解成子问题，另一些则会直接解决问题，还有些人则会换个视角重新表述问题。此外，人们还会根据当前状态调整自己的方法，按需求选择不同的动作。

受人类推理过程的启发，该团队构建了一个更为丰富的数据集，其中包含 5 类动作，以尽可能地提升 SLM 正确解决复杂推理问题的潜力。

Tindakan 1: Cadangkan langkah pemikiran. Bagi masalah yang diberikan, tindakan ini akan menyebabkan LLM menjana langkah pemikiran seterusnya berdasarkan langkah penaakulan sedia ada.

Tindakan 2: Cadangkan langkah yang tinggal. Tindakan ini, seperti CoT standard, membolehkan "pemikiran pantas" untuk menyelesaikan masalah mudah dalam beberapa langkah sahaja. Memandangkan langkah-langkah inferens yang dijana, ia membenarkan LLM menjana terus langkah-langkah yang tinggal sehingga jawapan akhir diperoleh.

Tindakan 3: Cadangkan sub-soalan seterusnya dan jawapannya.

Tindakan 4: Jawab sub-soalan ini sekali lagi. Memandangkan tindakan 3 mungkin tidak menjawab sub-soalan yang sepadan dengan betul, peranan tindakan ini adalah untuk menjawabnya semula.

Tindakan 5: Merumuskan semula masalah/sub-masalah. Langkah baharu ini adalah untuk menguraikan semula masalah dengan cara yang lebih mudah. Khususnya, di sini ialah LLM menyenaraikan dengan jelas semua syarat dalam pernyataan masalah.

Lima tindakan di atas mentakrifkan ruang tindakan yang sangat pelbagai {A1, A2, A3, A4, A5}.

Pada setiap langkah i, MCTS memilih tindakan a_i daripada ruang ini. Tindakan a_i ini kemudiannya digunakan untuk membiarkan LLM menjana langkah inferens seterusnya s_i berdasarkan keadaan semasa (iaitu trajektori yang dijana sebelum ini x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}). Sila ambil perhatian bahawa beberapa tindakan perlu dilakukan mengikut urutan. Rajah 3 memberikan contoh.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Seperti yang ditunjukkan dalam Jadual 1, setiap tindakan memainkan peranan penting dalam meningkatkan ketepatan inferens akhir.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Fungsi Ganjaran

Satu lagi komponen utama MCTS ialah fungsi ganjaran, yang menilai nilai setiap tindakan dan memberikan petunjuk untuk pengembangan pokok. Untuk SLM, pasukan mereka bentuk fungsi ganjaran yang mudah tetapi berkesan. Pendekatan mereka, diilhamkan oleh AlphaGo, menjaringkan setiap nod perantaraan berdasarkan sumbangannya kepada jawapan yang betul akhir. Dengan cara ini, tindakan yang kerap menghasilkan jawapan yang betul akan menerima ganjaran yang lebih tinggi dan mereka akan lebih berkemungkinan dipilih dalam pengembangan pokok MCTS pada masa hadapan.

Di sini, nilai ganjaran nod s yang dijana selepas melaksanakan tindakan a ditakrifkan sebagai Q (s, a). Pada mulanya, semua nod yang belum diterokai ditetapkan Q (s_i, a_i) = 0, dengan itu mencapai pengembangan pokok rawak. Apabila mencapai nod hujung pertama n_d, skor ganjaran Q (s_d, a_d) dikira berdasarkan sama ada ia mendapat jawapan yang betul.

Kemudian, skor ini disebarkan balik ke setiap nod perantaraan sepanjang trajektori t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Khususnya, bagi setiap s_i, nilai Qnya dikemas kini seperti berikut: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Untuk mengira Q(s_d, a_d) bagi nod akhir, nilai ganjaran yang digunakan di sini ialah kemungkinan (keyakinan) undi majoriti yang konsisten sendiri.

Gunakan Pelancaran MCTS untuk menjana penyelesaian

Yang berikut menerangkan cara MCTS menjana trajektori penaakulan calon. Bermula dari nod akar awal s_0, pelbagai carian termasuk pemilihan, pengembangan, simulasi dan perambatan belakang dilakukan. Khususnya, simulasi menggunakan strategi Pelancaran lalai. Untuk mendapatkan anggaran ganjaran yang lebih tepat, pasukan melakukan beberapa pelancaran. Untuk mengimbangi penerokaan dan eksploitasi, mereka menggunakan UCT (ikat keyakinan atas pokok) yang terkenal untuk memilih setiap nod. Bentuk matematik proses pemilihan ini ialah:

di mana N (s, a) ialah bilangan kali nod s dilawati dalam lelaran sebelumnya, dan N_parent (s) mewakili bilangan lawatan ke nod induk s. Q (s, a) ialah anggaran nilai ganjaran, yang dikemas kini semasa perambatan belakang. c ialah pemalar yang mengimbangi penerokaan dan eksploitasi.

Setelah carian mencapai nod akhir (yang mungkin keadaan terminal, atau ia mungkin mencapai kedalaman pokok maksimum yang telah ditetapkan d), trajektori dari akar ke nod akhir boleh diperolehi. Semua trajektori yang diperoleh melalui lelaran Pelancaran dikumpulkan sebagai penyelesaian calon. Seterusnya mereka perlu disahkan.

Memilih trajektori inferens menggunakan koheren

Berdasarkan semua trajektori yang dikumpul, pasukan bercadang untuk menggunakan koheren inferens untuk memilih jawapan.

Mencapai keselarasan inferens melalui diskriminator SLM

Seperti yang ditunjukkan dalam Rajah 2, sebagai tambahan kepada sasaran SLM, pasukan juga memperkenalkan SLM diskriminator, yang berperanan menyediakan maklum balas luaran tanpa pengawasan bagi setiap trajektori calon.

Secara khusus, untuk t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, tutup langkah inferens bermula pada beberapa langkah sampel rawak i. Kemudian trajektori inferens sebelumnya t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} diberikan kepada SLM diskriminator sebagai gesaan untuk membiarkannya melengkapkan langkah yang tinggal. Memandangkan langkah inferens i-1 sebelum ini digunakan sebagai pembayang, kesukaran dikurangkan dan SLM yang mendiskriminasi lebih cenderung untuk memberikan jawapan yang betul.

Rajah 4 membandingkan sama ada jawapan penyelesaian SLM pendiskriminasi sepadan dengan trajektori asal t. Jika kedua-duanya konsisten, t dianggap sebagai trajektori yang disahkan yang akhirnya boleh dipilih.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Trajektori akhir dipilih oleh sasaran SLM. Selepas menggunakan koheren inferens pada semua trajektori calon, kembali ke sasaran SLM dan biarkan ia memilih trajektori akhir daripada trajektori yang disahkan. Untuk mengira skor akhir bagi setiap trajektori, pasukan mendarabkan ganjarannya dengan skor keyakinan nod akhir yang diperoleh melalui Pelancaran. Trajektori dengan skor akhir tertinggi dipilih sebagai penyelesaian.

Eksperimen

Persediaan eksperimen

rStar sesuai untuk pelbagai tugasan LLM dan inferens. Pasukan menilai 5 SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Terdapat 5 tugasan penaakulan yang diuji, termasuk 4 tugasan matematik (GSM8K, GSM-Hard, MATH, SVAMP) dan 1 tugasan akal (StrategyQA).

Sila lawati kertas asal untuk butiran percubaan.

Keputusan Utama

Pasukan pertama kali menilai keberkesanan rStar pada penanda aras inferens umum. Jadual 2 membandingkan ketepatan rStar dan kaedah terkini yang lain pada set data SLM dan inferens yang berbeza. Untuk menunjukkan keberkesanan penjana baharu, pasukan juga menyediakan ketepatan rStar (penjana @maj) tanpa diskriminasi dan hanya menggunakan undian majoriti untuk mengesahkan jawapan.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Pasukan menunjukkan tiga keputusan penting:

1 SLM yang dikuasakan oleh rStar lebih mampu menyelesaikan masalah. Sebagai contoh, pada set data GSM8K, ketepatan LLaMA2-7B menggunakan CoT beberapa sampel hanya 12.51%. Tetapi dengan bantuan rStar, ketepatannya meningkat kepada 63.91%, yang hampir dengan ketepatan yang diperoleh menggunakan penalaan halus, seperti yang ditunjukkan dalam Rajah 1. Begitu juga, Mistral menggunakan rStar malah mengatasi versi MetaMath yang diperhalusi sebanyak 4.18%. Penambahbaikan sedemikian menunjukkan bahawa SLM sendiri sudah mempunyai keupayaan penaakulan yang kukuh, tetapi ia memerlukan bimbingan untuk menjana dan memilih jawapan yang betul.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

2.rStar secara stabil boleh meningkatkan ketepatan inferens pelbagai SLM yang dinilai pada tugas berbeza ke tahap terbaik semasa. Sebagai perbandingan, kaedah perbandingan lain tidak dapat mencapai prestasi yang baik secara konsisten pada keempat-empat penanda aras. Sebagai contoh, walaupun SC (konsistensi kendiri) mahir dalam tiga tugasan matematik, ia tidak berkesan untuk menyelesaikan tugas penaakulan logik StrategyQA.

3 Walaupun tanpa diskriminasi yang baru dicadangkan untuk mengesahkan trajektori inferens, penjana MCTS yang baru dicadangkan masih berfungsi dengan baik dalam meningkatkan ketepatan inferens SLM. Sebagai contoh, pada set data GSM8K, ketepatan rStar (penjana @maj) ialah 2.88%-16.39% lebih tinggi daripada RAP, 10.60%-38.37% lebih tinggi daripada ToT dan 1.69%-7.34% lebih tinggi daripada SC.

Keputusan pada set data matematik yang sukar

Pasukan juga menilai rStar pada set data matematik yang lebih sukar. Untuk ini mereka memilih set data GSM-Hard dan MATH. Mengikuti konvensyen kajian serupa, mereka menggunakan MATH-500, subset masalah perwakilan daripada dataset MATH. Ini dilakukan untuk meningkatkan kelajuan penilaian. Seperti yang ditunjukkan dalam Jadual 2 dan 3, rStar dapat meningkatkan dengan ketara ketepatan inferens SLM pada set data matematik yang sukar ini.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Kajian Ablasi

Keberkesanan Pelancaran berbeza

rStar menggunakan strategi Pelancaran untuk melaksanakan pengembangan pokok MCTS. Lebih banyak pelancaran menjana lebih banyak trajektori penyelesaian calon, tetapi juga meningkatkan kos inferens. Rajah 5 membandingkan ketepatan SC, RAP dan rStar menggunakan pelancaran berbeza pada GSM8K.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Dua pemerhatian utama dibuat di sini:

1 Walaupun dengan hanya 2 Pelancaran, rStar dapat meningkatkan ketepatan inferens dengan ketara, yang menunjukkan keberkesanannya

2 , manakala RAP cenderung tepu atau malah menurun selepas 4 Pelancaran. Satu sebab ialah ruang tindakan satu jenis RAP mengehadkan keberkesanan penerokaan MCTS.

Keberkesanan penjana MCTS

Pasukan membandingkan keberkesanan penjana MCTS dengan tiga penjana lain. Seperti yang ditunjukkan dalam Jadual 4, penjana MCTS yang baru dicadangkan mengatasi penjana lain secara menyeluruh. Tambahan pula, keberkesanan fungsi ganjaran yang ditala untuk SLM ditunjukkan apabila penilaian kendiri mengurangkan ketepatan penjana baharu.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Keberkesanan diskriminasi

Pasukan ini menyediakan dua eksperimen penilaian.

Percubaan pertama adalah membandingkan kaedah diskriminasi dengan kaedah undian majoriti dan pengesahan diri. Keputusan ditunjukkan dalam Jadual 5 (kiri), dan dapat dilihat bahawa kelebihan kaedah diskriminasi adalah sangat ketara.

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

Percubaan kedua adalah untuk mengkaji kesan model diskriminator yang berbeza. Keputusan ditunjukkan dalam Jadual 5 (kanan). Dapat dilihat bahawa memilih model diskriminator yang berbeza biasanya tidak menjejaskan kesan kaedah koheren inferens untuk mengesahkan jawapan. Perlu diingat bahawa walaupun menggunakan GPT-4 yang berkuasa sebagai diskriminasi, prestasi hanya meningkat sedikit (daripada 91.13% kepada 92.57%). Ini menunjukkan bahawa kaedah koheren inferensi boleh menggunakan SLM dengan berkesan untuk mengesahkan jawapan.

以上是两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调的详细内容。更多信息请关注PHP中文网其他相关文章！