ネチズンは、Mathstral が「9.11 と 9.9 のどちらが大きいか?」という問題を解決できるかどうかに興味を持っています。
昨日、AI サークルは「9.11 と 9.9 ではどちらが大きいですか?」という単純な質問に圧倒され、OpenAI GPT-4o、Google Gemini などを含む大きな言語モデルがすべて覆されました。
これにより、大規模な言語モデルは、いくつかの数値問題を扱うときに人間のように理解して正しい答えを与えることができないことがわかります。
数値や複雑な数学的問題の場合、特別なモデルはより特化されています。
本日、フランスの大型モデルのユニコーンであるMistral AIは、複雑で多段階の論理的推論を必要とする高度な数学的問題を解決するための数理推論と科学的発見に焦点を当てた
7B大型モデル「Mathstral」をリリースしました。 このモデルは、Mistral 7B に基づいて構築されており、32k のコンテキスト ウィンドウの長さをサポートし、オープン ソース契約の Apache 2.0 ライセンスに従います。
Mathstral は、優れたパフォーマンスと速度のトレードオフを追求するために構築されました。これは、Mistral AI が、特に微調整機能で積極的に推進している開発哲学です。
同時に、Mathstral は使用または微調整できる指導モデルです。モデルの重みは HuggingFace に配置されています。
- モデルの重み: https://huggingface.co/mistralai/mathstral-7B-v0.1
下の図は、Mathstral 7B と Mistral 7B の MMLU パフォーマンスの違いを示しています (プレス科目区分)。
Mathstral は、さまざまな業界標準ベンチマークにおいて、その規模で最先端の推論パフォーマンスを実現します。特に MATH データセットでは 56.6% の合格率、MMLU では 63.47% の合格率を達成しました。
同時に、Mathstral の MATH 合格率 (56.6%) は、Minerva 540B よりも 20% 以上高くなっています。さらに、Mathstral は、多数決 @64 で MATH で 68.4% を獲得し、報酬モデルを使用すると 74.6% を獲得しました。
この結果はまた、Mathstralが「9.11と9.9のどちらが大きいか?」という問題を解決できるかどうか、ネチズンに興味を持たせた。
コードラージモデル: Codestral Mamba
- モデルの重み: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1
とMathstral 7B と一緒にリリースされ、コード生成に特化して使用される Codestral Mamba モデルもあります。これは Mamba2 アーキテクチャを使用し、Apache 2.0 ライセンス オープン ソース契約にも準拠しています。これは、研究者が無料で使用、変更、配布できる 70 億を超えるパラメータを備えたガイダンス モデルです。
Codestral Mamba が Mamba 作者の Albert Gu 氏と Tri Dao 氏の協力を得てデザインされたことは言及する価値があります。
長い間、Transformer アーキテクチャは AI 分野の半分をサポートしてきました。ただし、Transformer とは異なり、Mamba モデルには線形時間推論の利点があり、理論的には無限長のシーケンスをモデル化できます。このアーキテクチャにより、ユーザーは入力の長さに制限されることなく、広範囲かつ応答性良くモデルを操作できるようになります。この効率は、コード生成において特に重要です。
ベンチマーク テストでは、HumanEval テストで Codestral Mamba が競合するオープン ソース モデル CodeLlama 7B、CodeGemma-1.17B、DeepSeek を上回りました。
Mistral はこのモデルをテストしました。このモデルは、Mistral の Plateforme API で無料で利用でき、OpenAI の GPT-4o の 2 倍である最大 256,000 トークンの入力を処理できます。 Codestral Mamba のリリースにより、一部のネチズンが VSCode でそれを使用しましたが、非常にスムーズです。
https://mistral.ai/news/mathstral/https://mistral.ai/news/codestral-mamba/ 以上がMistral AI 2 連続リリース: 7B 数的推論専用、Mamba2 アーキテクチャ コード大型モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。