2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

王林
リリース: 2024-08-16 16:38:49
オリジナル
1021 人が閲覧しました
小さなモデルが大きな問題を解決できるように、お互いをチェックしてください。

ご存知のとおり、LLM は強力ですが、複雑な推論を実行する能力は十分ではありません。

たとえば、GSM8K データセットでは、思考連鎖 (CoT) などのテクノロジーを使用しても、Mistral-7B は 36.5% の精度しか達成できません。微調整により実際に推論機能を効果的に向上させることができますが、ほとんどの LLM は、GPT-4 などのより強力なモデルから抽出された微調整データ、またはこれらの強力なモデルによって合成されたデータに依存しています。

同時に、研究者たちは、推論能力を向上させるために、より優れた教師 LLM を使用するという、補助的ではあるがより困難な方法の開発も積極的に行っています。

より良いモデルがなくても推論能力を向上させるために、有望なパラダイムは、LLM 自体の知識を利用することです。たとえば、RAP と呼ばれる手法では、自己報酬型フィードバックを通じて LLM の推論パフォーマンスを反復的に改善する自己探索型ソリューションが採用されています。残念ながら、このパラダイムには 2 つの根本的な問題があることが研究でわかっています。

まず、推論を実行するとき、LLM は解空間を効果的に探索することが難しいことがよくあります。この自己探索的なアプローチは、何度試行しても、推論ステップの質が低いため、解決空間で行き詰まることがよくあります。

第二に、自己探索によって高品質の推論ステップが見つかったとしても、大規模言語モデル (SLM) の小規模バージョンでは、どの推論ステップがより高品質であるかを識別し、最終的な答えが正しいかどうかを判断することが困難です。そのため、自己探求を効果的に導くことが困難になります。研究によると、基本的な定期的な報酬に基づいたガイド付き自己探求では、ランダムな推測と同等の結果が得られます。

さらに問題なのは、大規模言語モデル (SLM) の小規模バージョンは機能が劣るため、上記 2 つの問題が発生しやすいことです。たとえば、GPT-4 は自己最適化によって出力結果を改善できますが、SLM ではこれが難しく、出力結果の品質が低下する可能性もあります。これは、神経言語モデルの普及と応用を大きく妨げることになります。

これらの問題に対応して、Microsoft Research Asia とハーバード大学の研究チームは、Selfplay muTuAl Reasoning (略して rStar) を提案しました。簡単に言うと、この方法は、2 人の平凡な学生に試験問題の答えを相互にチェックさせ、最終的にトップの学力とさえ競争できるレベルまで得点を向上させるのに似ています。研究チームは、rStar は「モデルの微調整やより良いモデルを必要とせずに、SLM の推論機能を向上させる」と主張しています。

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

  • 論文タイトル: Mutual Reasoning Makes Smaller LLMs Stronger 問題解決ツール

  • 論文アドレス: https://arxiv.org/pdf/2408.06195

  • コードアドレス: https://github. com/zhentingqi/rStar (リリース予定)

方法

上記の問題を解決するために、rStar のアプローチは、図 2 に示すように、推論プロセスを解決策の生成と相互検証の 2 つの部分に分割することです。 。

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

最初のパズルでは、チームは、さまざまな推論タスク空間を徹底的に探索する、豊かな人間のような推論アクションのコレクションを導入します。

2 番目の問題については、SLM 専用の報酬関数を設計しました。これにより、中間ステップを評価して、信頼性の低いことが多い自己評価に依存することを回避できます。

さらに、チームは MCTS プロセスを強化するための弁別器として別の SLM も使用し、弁別器 SLM と各軌道の正しさを相互に検証しました。

MCTS ロールアウトを使用して推論軌跡を自分で生成します

人間のような推論アクションの豊富なコレクション。 MCTS 生成の中核は、ツリー探索の範囲を定義するアクション スペースにあります。ほとんどの MCTS ベースのメソッドは、ツリーの構築時に単一のアクション タイプを使用します。たとえば、RAP のアクションは次のサブ質問をすることですが、AlphaMath と MindStar のアクションは次の推論ステップを生成することです。ただし、シングルアクションタイプに依存すると、宇宙探査がうまくいかない可能性があります。

この問題を解決するために、チームは人間が推論を行う方法を見直しました。さまざまな人がさまざまな方法で問題を解決します。問題をサブ問題に分割する人もいれば、問題を直接解決する人もいますし、別の観点から問題を言い換える人もいます。さらに、人々は現在の状態に応じて自分の方法を調整し、必要に応じてさまざまな行動を選択します。

人間の推論プロセスにインスピレーションを得て、チームは、複雑な推論問題を正しく解決するための SLM の可能性を最大化するために、5 種類のアクションを含むより豊富なデータセットを構築しました。

Action 1: 생각의 단계를 제안합니다. 특정 문제에 대해 이 작업을 수행하면 LLM이 기존 추론 단계를 기반으로 사고의 다음 단계를 생성하게 됩니다.

작업 2: 나머지 단계를 제안합니다. 표준 CoT와 마찬가지로 이 작업을 통해 "빠른 사고"를 통해 단 몇 단계만으로 간단한 문제를 해결할 수 있습니다. 생성된 추론 단계가 주어지면 최종 답변을 얻을 때까지 LLM이 나머지 단계를 직접 생성할 수 있습니다.

작업 3: 다음 하위 질문과 답변을 제안합니다.

작업 4: 이 하위 질문에 다시 답하세요. Action 3에서는 해당 하위 질문에 대한 답변이 정확하지 않을 수 있다는 점을 고려하여 다시 답변하는 것이 이 Action의 역할입니다.

작업 5: 문제/하위 문제를 재구성합니다. 이 새로운 움직임은 문제를 더 간단한 방식으로 다시 표현하는 것입니다. 특히 LLM이 문제 설명의 모든 조건을 명확하게 나열하도록 합니다.

위의 다섯 가지 작업은 매우 다양한 작업 공간 {A1, A2, A3, A4, A5}을 정의합니다.

각 단계 i에서 MCTS는 이 공간에서 a_i 작업을 선택합니다. 그런 다음 이 작업 a_i는 LLM이 현재 상태(즉, 이전에 생성된 궤적 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1})를 기반으로 다음 추론 단계 s_i를 생성하도록 하는 데 사용됩니다. 일부 작업은 순서대로 수행해야 합니다. 그림 3에 예가 나와 있습니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

표 1에서 볼 수 있듯이 각 동작은 최종 추론 정확도를 높이는 데 중요한 역할을 합니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

  • 보상 기능

MCTS의 또 다른 핵심 구성 요소는 각 행동의 가치를 평가하고 트리 확장에 대한 표시를 제공하는 보상 기능입니다. SLM을 위해 팀은 간단하면서도 효과적인 보상 기능을 설계했습니다. AlphaGo에서 영감을 받은 그들의 접근 방식은 최종 정답에 대한 기여도에 따라 각 중간 노드의 점수를 매깁니다. 이렇게 하면 정답이 자주 나오는 행동은 더 높은 보상을 받게 되며 향후 MCTS 트리 확장에서 선택될 가능성이 높아집니다.

여기서 액션 a를 실행한 후 생성된 노드 s의 보상 값을 Q(s, a)로 정의합니다. 처음에는 탐색되지 않은 모든 노드에 Q(s_i, a_i) = 0이 할당되어 임의 트리 확장이 달성됩니다. 첫 번째 끝 노드 n_d에 도달하면 정답을 얻었는지 여부에 따라 보상 점수 Q(s_d, a_d)가 계산됩니다.

그런 다음 이 점수는 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d 궤적을 따라 각 중간 노드로 역전파됩니다. 구체적으로, 각 s_i에 대해 해당 Q 값은 Q(s_i, a_i) = Q(s_i, a_i) + Q(s_d, a_d)와 같이 업데이트됩니다. 엔드 노드에 대한 Q(s_d, a_d)를 계산하기 위해 여기에 사용되는 보상 값은 일관된 다수 투표의 가능성(신뢰도)입니다.

  • MCTS 롤아웃을 사용하여 솔루션 생성

다음은 MCTS가 후보 추론 궤적을 생성하는 방법을 설명합니다. 초기 루트 노드 s_0부터 시작하여 선택, 확장, 시뮬레이션, 역전파 등 다양한 검색이 수행됩니다. 특히 시뮬레이션에서는 기본 롤아웃 전략을 사용합니다. 보다 정확한 보상 추정치를 얻기 위해 팀은 여러 차례 출시를 수행합니다. 탐색과 활용의 균형을 맞추기 위해 잘 알려진 UCT(트리의 신뢰 상한)를 사용하여 각 노드를 선택합니다. 이 선택 프로세스의 수학적 형식은 다음과 같습니다.

여기서 N(s, a)는 이전 반복에서 노드 s를 방문한 횟수이고 N_parent(s)는 s의 상위 노드에 대한 방문 횟수를 나타냅니다. Q(s, a)는 역전파 중에 업데이트되는 추정 보상 값입니다. c는 탐색과 활용의 균형을 맞추는 상수입니다.

검색이 끝 노드(종료 상태이거나 미리 정의된 최대 트리 깊이 d에 도달할 수 있음)에 도달하면 루트에서 끝 노드까지의 궤적을 얻을 수 있습니다. Rollout 반복을 통해 얻은 모든 궤적은 후보 솔루션으로 수집됩니다. 다음으로 확인이 필요합니다.

일관성을 사용한 추론 궤적 선택

수집된 모든 궤적을 기반으로 팀에서는 추론 일관성을 사용하여 답변을 선택할 것을 제안합니다.

  • 판별기 SLM을 통해 추론 일관성 달성

그림 2에 표시된 것처럼 대상 SLM 외에도 팀에서는 각 후보 궤적에 대해 외부 비지도 피드백을 제공하는 역할을 하는 판별기 SLM도 도입했습니다.

구체적으로 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d의 경우 무작위로 샘플링된 단계 i에서 시작하는 추론 단계를 마스크합니다. 그런 다음 이전 추론 궤적 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1}이 판별기 SLM에 프롬프트로 제공되어 나머지 단계를 완료하도록 합니다. 이전 i-1 추론 단계를 힌트로 사용하기 때문에 난이도가 줄어들고 판별기 SLM이 정답을 줄 가능성이 높아집니다.

그림 4는 판별기 SLM 완성의 답이 원래 궤적 t와 일치하는지 비교합니다. 두 가지가 일치하면 t는 최종적으로 선택할 수 있는 검증된 궤적이라고 간주됩니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

최종 궤적은 대상 SLM에 의해 선택됩니다. 모든 후보 궤적에 추론 일관성을 적용한 후 대상 SLM으로 돌아가서 검증된 궤적에서 최종 궤적을 선택하도록 합니다. 각 궤적의 최종 점수를 계산하기 위해 팀은 롤아웃을 통해 얻은 엔드 노드의 신뢰도 점수에 보상을 곱했습니다. 최종 점수가 가장 높은 궤적이 솔루션으로 선택됩니다.

Experiments

Experimental setup

rStar는 다양한 LLM 및 추론 작업에 적합합니다. 팀은 Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct 등 5개의 SLM을 평가했습니다.

4개의 수학 과제(GSM8K, GSM-Hard, MATH, SVAMP)와 1개의 상식 과제(StrategyQA)를 포함하여 5개의 추론 과제가 테스트되었습니다.

실험에 대한 자세한 내용은 원본 논문을 참조하세요.

주요 결과

팀은 먼저 일반 추론 벤치마크에서 rStar의 효율성을 평가했습니다. 표 2는 다양한 SLM 및 추론 데이터 세트에서 rStar와 기타 최첨단 방법의 정확도를 비교합니다. 새로운 생성기의 효율성을 입증하기 위해 팀에서는 판별자 없이 다수결 투표만을 사용하여 답을 검증하는 rStar(생성기 @maj)의 정확성도 제공합니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

팀은 세 가지 주요 결과를 지적했습니다.

1. rStar 기반 SLM은 문제 해결 능력이 더 뛰어납니다. 예를 들어 GSM8K 데이터 세트에서 소수 샘플 CoT를 사용하는 LLaMA2-7B의 정확도는 12.51%에 불과합니다. 그러나 rStar의 도움으로 정확도는 63.91%로 향상되었으며 이는 그림 1과 같이 미세 조정을 사용하여 얻은 정확도에 가깝습니다. 마찬가지로, rStar를 사용한 Mistral은 미세 조정된 MetaMath 버전보다 4.18% 더 나은 성능을 보였습니다. 이러한 개선은 SLM 자체가 이미 강력한 추론 기능을 갖추고 있지만 정답을 생성하고 선택하려면 지침이 필요하다는 것을 보여줍니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

2.rStar는 다양한 작업에서 평가된 다양한 SLM의 추론 정확도를 현재 최고 수준까지 안정적으로 향상시킬 수 있습니다. 이에 비해 다른 비교 방법은 네 가지 벤치마크 모두에서 일관되게 좋은 성능을 달성할 수 없습니다. 예를 들어 SC(self-consistency)는 세 가지 수학 문제를 잘 수행하지만 StrategyQA의 논리적 추론 문제를 해결하는 데는 효과적이지 않습니다.

3. 새로 제안된 추론 궤적 검증을 위한 판별기가 없어도 새로 제안된 MCTS 생성기는 SLM의 추론 정확도를 향상시키는 데 여전히 잘 작동합니다. 예를 들어 GSM8K 데이터 세트에서 rStar(생성기 @maj)의 정확도는 RAP보다 2.88%-16.39% 더 높고, ToT보다 10.60%-38.37% 더 높으며, SC보다 1.69%-7.34% 더 높습니다.

  • 어려운 수학 데이터 세트에 대한 결과

팀에서는 더 어려운 수학 데이터 세트에 대해서도 rStar를 평가했습니다. 이를 위해 그들은 GSM-Hard 및 MATH 데이터 세트를 선택했습니다. 유사한 연구의 관례에 따라 그들은 MATH 데이터 세트의 대표적인 문제의 하위 집합인 MATH-500을 사용했습니다. 이는 평가 속도를 향상시키기 위해 수행됩니다. 표 2와 3에서 볼 수 있듯이 rStar는 이러한 어려운 수학적 데이터 세트에 대한 SLM의 추론 정확도를 크게 향상시킬 수 있습니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

절제 연구

  • 다양한 롤아웃의 효율성

rStar는 롤아웃 전략을 사용하여 MCTS 트리 확장을 수행했습니다. 더 많은 롤아웃이 더 많은 후보 솔루션 궤적을 생성하지만 추론 비용도 증가합니다. 그림 5는 GSM8K에서 다양한 롤아웃을 사용하여 SC, RAP 및 rStar의 정확도를 비교합니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

여기에서 두 가지 주요 관찰이 이루어졌습니다.

1. 단 2개의 롤아웃으로도 rStar는 SLM의 추론 정확도를 크게 향상시킬 수 있으며 이는 그 효과를 보여줍니다.
2 rStar와 SC 모두 유익합니다. RAP는 4번의 롤아웃 후에 포화되거나 심지어 감소하는 경향이 있습니다. 한 가지 이유는 RAP의 단일 유형 행동 공간이 MCTS 탐색의 효율성을 제한한다는 것입니다.
  • MCTS 발전기의 효율성

팀은 MCTS 발전기의 효율성을 다른 세 가지 발전기와 비교했습니다. 표 4에서 볼 수 있듯이, 새로 제안된 MCTS 발전기는 전반적으로 다른 발전기보다 성능이 뛰어납니다. 또한 자체 평가로 인해 새로운 생성기의 정확도가 감소하므로 SLM에 맞게 조정된 보상 기능의 효율성이 입증되었습니다.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

  • Wirksamkeit des Diskriminators

Das Team führte zwei Bewertungsexperimente durch.

Das erste Experiment besteht darin, die diskriminierende Methode mit Mehrheitsentscheidungs- und Selbstvalidierungsmethoden zu vergleichen. Die Ergebnisse sind in Tabelle 5 (links) dargestellt und es ist ersichtlich, dass die Vorteile der Diskriminierungsmethode sehr groß sind.

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しません

Das zweite Experiment besteht darin, die Auswirkungen verschiedener Diskriminatormodelle zu untersuchen. Die Ergebnisse sind in Tabelle 5 (rechts) dargestellt. Es ist ersichtlich, dass die Auswahl verschiedener Diskriminatormodelle normalerweise keinen Einfluss auf die Wirkung der Inferenzkohärenzmethode zur Überprüfung der Antwort hat. Es ist erwähnenswert, dass sich die Leistung selbst bei Verwendung des leistungsstarken GPT-4 als Diskriminator nur geringfügig verbessert (von 91,13 % auf 92,57 %). Dies zeigt, dass die inferentielle Kohärenzmethode SLM effektiv zur Überprüfung von Antworten nutzen kann.

以上が2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT や微調整さえ使用しませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!