10 行未満のコードで、大規模モデル (GSM8k) の数学的能力を 20% 向上させることができます。
何人かの独立した学者が大規模モデルのサンプリングの改善を提案しており、オープンソース コミュニティの注目を集めています。
現在、この手法はMistral-7Bで成果を上げており、Llama3-70Bでも試験が進行中です。
この方法は min-p サンプリングと呼ばれ、生成されるテキストの一貫性と多様性のバランスをとることを目的としています。
簡単に言うと、事実の問題に対して安定したパフォーマンスを維持したり、執筆などのシナリオで創造的になったりするなど、モデルがさまざまな状況でさまざまな特性を発揮できるようになります。
現在、この手法はMistral-7Bで成果を上げており、Llama-70Bでのテストが始まろうとしています。
論文の中で、著者は、この手法がオープンソース コミュニティで広く使用されていると述べました。
同時に、著者は、Anthropic や Google などのクローズド ソース モデル メーカーも min-p をテスト済み、またはテスト中であることも明らかにしました。
このニュースは、OpenAI から Google に乗り換えた開発者コミュニティのリーダーである Logan Kilpatrick も Google によって確認されました。
Microsoft Copilot の研究者である Abram Jackson 氏は、これを読んだ後、推論プロセスにおけるトークン サンプリングに関して初めて見た改善であり、今後も改善の余地はまだたくさんあると述べました。
この広く注目されている研究の主著者であるミン・ナット・グエン氏は、CSを体系的に学んだことが全くなく、独学であることは言及する価値があります。
Apart Research と呼ばれる AI セキュリティ研究組織の支援を受けて、Minh とチームの他のメンバーはプロジェクトを完了しました。
サンプリング閾値の動的調整
min-pは、動的切り捨てサンプリング方法であり、その核心は、各ステップでのトークン分布の最大確率に従って最小確率閾値をスケーリングすることです。
これの主な目的は、特に高温条件下で、生成されたテキストの一貫性と多様性のバランスをとることです。
具体的には、min-p は、サンプリング プールに入る最小確率要件を表す基本確率しきい値 p_base を導入します。
各ステップでトークンを生成するとき、min-p は p_base に現在の確率分布の最大トークン確率 p_max を乗算して、スケーリングされた絶対しきい値 p_scaled を取得します。
p_scaled 以上の確率を持つトークンのみがサンプリング プールに入ることができます。
特定のトークンに対するモデルの予測確率が非常に高い (つまり、p_max が非常に大きい) 場合、p_scaled の値も非常に高くなり、サンプリング プールが大幅に減少し、大部分の低確率トークンがフィルターされ、信頼性の高い少数のみが残されます。
すべてのトークンに対するモデルの予測確率が比較的近い場合 (p_max が低い場合)、p_scaled の値は次のようになります。これに応じて、サンプリング プールの要件も緩和され、中確率のトークンをより多く組み込むことで、より多様なコンテンツを生成するためのより多くのスペースがモデルに与えられます。
サンプリングプールを決定した後、min-p は温度に応じてトークンの確率分布をスケーリングします。
トークンの対数確率を温度パラメータτで除算し、正規化した後、スケーリングされた温度の確率分布を取得します。
τ 値が 1 より大きい場合、確率分布が平坦になり、低確率トークンが選択される可能性が高くなります。
τ が 1 未満の場合、分布がよりシャープになり、高確率トークンの利点が強化されます。 。
最後に、min-p は、調整された確率分布に従って、スケーリングされたサンプリング プールから次のトークンをランダムに選択します。
安定と創造性、「全部欲しい」
min-p法の効果とは?筆者は基本モデルとしてMistral-7Bを使用してテストを行った結果をシナリオ別に見てみましょう。
推論タスクでは、作成者は GPQA データセットを使用します。温度が 1 の場合、min-p は過去の top-p よりもわずかに有利であることがわかります。
気温が上昇するにつれて、GPQA スコアは全体的に下降傾向を示しますが、min-p の減少が top-p よりも大幅に遅いことが観察できます。
min-p の低下傾向は、top-p のスコアが 0 に近づく、温度が 3 に達するまで明らかになりません。
言い換えれば、top-p と比較して、min-p は推論タスクで必要な安定性をよりよく維持します。
数学的タスクも安定したパフォーマンスを維持する必要があります。ここでは、著者はテストに GSM8K データセットを使用しました。
その結果、min-p に対応するスコアは GPQA よりも温度とともに速く減少しますが、それでも top-p 法よりは遅くなります。
3 番目のタイプのタスクは、現時点では、安定性の要件はそれほど高くありませんが、モデルはより創造的である必要があります。
このテストは AlpacaEval データセットを使用して行われ、実験データはオープンソース コミュニティの独立した評価者から取得されました。
実験の結果、温度=1.5、min-p=0.1の設定では、min-pのパフォーマンスが特に優れており、top-p方式では生成が難しいクリエイティブな文章を生成できることがわかりました。
このパラメーターの下で、min-p メソッドによって取得されたテキストは、人間の判断優先率 58.12% を達成しました。これは、同様の設定の下での他のメソッドのパフォーマンスよりもはるかに高くなります。
論文アドレス:
https://arxiv.org/abs/2407.01082
GitHub:
https://github.com/menhguin/minp_paper/
参考リンク:
https:// x.com/menhguin/status/1826132708508213629
以上が10 行のコードで大規模モデルの数学が 20% 向上しました。「Yeluzi」の研究も Google によってテストされました。著者はすべて独学です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。