Mistral AI 2 連続リリース: 7B 数的推論専用、Mamba2 アーキテクチャコード大型モデル-AI-php.cn

Mistral AI 2 連続リリース: 7B 数的推論専用、Mamba2 アーキテクチャコード大型モデル

王林

リリース： 2024-07-19 09:54:11

オリジナル

458 人が閲覧しました

ネチズンは、Mathstral が「9.11 と 9.9 のどちらが大きいか?」という問題を解決できるかどうかに興味を持っています。

昨日、AI サークルは「9.11 と 9.9 ではどちらが大きいですか?」という単純な質問に圧倒され、OpenAI GPT-4o、Google Gemini などを含む大きな言語モデルがすべて覆されました。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

これにより、大規模な言語モデルは、いくつかの数値問題を扱うときに人間のように理解して正しい答えを与えることができないことがわかります。

数値や複雑な数学的問題の場合、特別なモデルはより特化されています。

本日、フランスの大型モデルのユニコーンであるMistral AIは、複雑で多段階の論理的推論を必要とする高度な数学的問題を解決するための数理推論と科学的発見に焦点を当てた

7B大型モデル「Mathstral」をリリースしました。

このモデルは、Mistral 7B に基づいて構築されており、32k のコンテキストウィンドウの長さをサポートし、オープンソース契約の Apache 2.0 ライセンスに従います。

Mathstral は、優れたパフォーマンスと速度のトレードオフを追求するために構築されました。これは、Mistral AI が、特に微調整機能で積極的に推進している開発哲学です。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

同時に、Mathstral は使用または微調整できる指導モデルです。モデルの重みは HuggingFace に配置されています。

モデルの重み: https://huggingface.co/mistralai/mathstral-7B-v0.1

下の図は、Mathstral 7B と Mistral 7B の MMLU パフォーマンスの違いを示しています (プレス科目区分）。

Mathstral は、さまざまな業界標準ベンチマークにおいて、その規模で最先端の推論パフォーマンスを実現します。特に MATH データセットでは 56.6% の合格率、MMLU では 63.47% の合格率を達成しました。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

同時に、Mathstral の MATH 合格率 (56.6%) は、Minerva 540B よりも 20% 以上高くなっています。さらに、Mathstral は、多数決 @64 で MATH で 68.4% を獲得し、報酬モデルを使用すると 74.6% を獲得しました。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

この結果はまた、Mathstralが「9.11と9.9のどちらが大きいか?」という問題を解決できるかどうか、ネチズンに興味を持たせた。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

コードラージモデル: Codestral Mamba

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

モデルの重み: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

とMathstral 7B と一緒にリリースされ、コード生成に特化して使用される Codestral Mamba モデルもあります。これは Mamba2 アーキテクチャを使用し、Apache 2.0 ライセンスオープンソース契約にも準拠しています。これは、研究者が無料で使用、変更、配布できる 70 億を超えるパラメータを備えたガイダンスモデルです。

Codestral Mamba が Mamba 作者の Albert Gu 氏と Tri Dao 氏の協力を得てデザインされたことは言及する価値があります。

長い間、Transformer アーキテクチャは AI 分野の半分をサポートしてきました。ただし、Transformer とは異なり、Mamba モデルには線形時間推論の利点があり、理論的には無限長のシーケンスをモデル化できます。このアーキテクチャにより、ユーザーは入力の長さに制限されることなく、広範囲かつ応答性良くモデルを操作できるようになります。この効率は、コード生成において特に重要です。

ベンチマークテストでは、HumanEval テストで Codestral Mamba が競合するオープンソースモデル CodeLlama 7B、CodeGemma-1.17B、DeepSeek を上回りました。

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型