The
AI race is accelerating like never before, and following Meta’s launch yesterday of its new open source Llama 3.1 model, French AI startup Mistral AI has joined the fray.
Just now, Mistral AI announced the next generation of its flagship open source model: Mistral Large 2, which has 123 billion parameters and is on par with the latest cutting-edge models from OpenAI and Meta in terms of code generation, mathematics, reasoning, and more.
Following the release of Llama 3.1 405B, the release of Mistral Large 2 has suddenly made the track of open source large models lively, and the characteristic of this model is - "large enough".
Specifically, although the number of parameters of Mistral Large 2 is lower than Llama 3.1’s 405 billion, the performance of the two is close. And it’s comparable to GPT-4o and Anthropic’s Claude 3.5 Sonnet in multiple benchmarks.
In February this year, Mistral AI launched the original Large model, whose context window contained 32,000 tokens. The new version of the model is built on this basis and has a larger context window of 128,000 (approximately equivalent to a book) 300 page book) - Matches OpenAI's GPT-4o and GPT-4o mini and Meta's Llama 3.1.
Currently, Mistral Large 2 supports dozens of languages, including French, German, Spanish, Italian, Portuguese, Arabic, Hindi, Russian, Chinese, Japanese, and Korean, and more than 80 programming languages, including Python, Java, C, C++, JavaScript and Bash.
Mistral AI points out that new models will continue to push the boundaries of cost efficiency, speed and performance, while providing users with new capabilities, including advanced function calls and retrieval, to build high-performance AI applications.
However, it is worth noting that although Mistral Large 2 is open, it is limited to research and non-commercial use. It provides open weights, allowing third parties to fine-tune the model according to their needs. This agreement is an important limitation on the user's conditions of use. For commercial use that requires self-deployment of Mistral Large 2, a Mistral AI commercial license must be obtained in advance.
Performance
On multiple evaluation indicators, Mistral Large 2 has set new standards in performance and service cost. Especially on MMLU, the pre-trained version achieved an accuracy of 84.0%.
Code and Reasoning
Mistral AI trained Mistral Large 2 on a large portion of the code based on previous experience with Codestral 22B and Codestral Mamba.
Mistral Large 2 performs far better than the previous generation Mistral Large and is on par with top models like GPT-4o, Claude 3 Opus and Llama 3 405B.
Mistral AI has also put a lot of effort into enhancing the model's reasoning capabilities. One of the key points is to minimize the tendency of the model to produce "hallucinations" or produce information that seems reasonable but is actually incorrect or irrelevant. This is achieved by fine-tuning the model to be more careful and sharp in its responses, ensuring it delivers reliable and accurate output.
Additionally, Mistral Large 2 will admit when it cannot find a solution or does not have enough information to provide a confident answer. This pursuit of accuracy is reflected in improved model performance on math benchmarks, with the following graph demonstrating its enhanced reasoning and problem-solving capabilities:
‐ ‐ ‐ ‐ ‐ ‐ Models are all benchmarked through the same evaluation process). Performance accuracy on MultiPL-E (except paper, all models are benchmarked through the same evaluation process).
Performance accuracy on GSM8K (8-shot) and MATH (0-shot, no CoT) generation benchmarks (all models are benchmarked through the same evaluation process).
Instructions to follow and align
ミストラル AI は、ミストラル ラージ 2 のコマンド追従機能と会話機能を大幅に向上させました。新しいミストラル ラージ 2 は、正確な指示に従い、複数ターンにわたる長い会話を処理することに特に優れています。以下は、MT-Bench、Wild Bench、および Arena Hard ベンチマーク テストでのパフォーマンスです:
ユニバーサル アライメント テストでのモデルのパフォーマンス (すべてのモデルは同じ評価 PIPELINE によってテストされます) 一部のベンチマークでは、より長い回答を生成すると評価が向上する傾向があります。ただし、多くの商用アプリケーションでは、簡潔なモデル生成により対話が高速化され、推論のコストが削減されるため、シンプルさが非常に重要です。
そのため、Mistral AIは、生成するコンテンツが可能な限り簡潔で簡潔であることを確認するために多大な努力を払っています。
次の図は、MT Bench ベンチマーク質問に対してさまざまなモデルによって生成された応答の平均長を示しています:
言語の多様性今日の商用アプリケーションのシナリオの多くには、多言語ドキュメントの処理が含まれています。 Mistral Large 2 は、大量の多言語データ、特に英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、ロシア語、中国語、日本語、韓国語、アラビア語、ヒンディー語でトレーニングされました。
以下は、主に以前の Mistral Large、Llama 3.1 モデル、および Cohere の Command R+ と比較した、多言語 MMLU ベンチマークにおける Mistral Large 2 のパフォーマンス結果です。言語 MMLUパフォーマンス (ベースの事前トレーニング済みモデルで測定)
ツールの使用法と関数呼び出し
Mistral Large 2 には、強化された関数呼び出しと取得スキルが装備されており、並列および逐次関数呼び出しを巧みに実行するようにトレーニングされています。は、複雑なビジネス アプリケーションの強力なエンジンとなる可能性があります。 下の写真は、関数呼び出しに関して、Mistral Large 2と他の主流モデルの精度比較を示しています:
Mistral Large 2を試してください
ユーザーは、mistral-largeという名前のPlateformeでMistral Large 2を使用できます。 -2407、le Chat でテスト済み。バージョンは 24.07 (Mistral はすべてのモデルで YY.MM バージョン番号付けシステムを使用します)、API 名は mistral-large-2407 です。
指導モデルの重みは、HuggingFace でホストされて提供されます。 ウェイトリンク: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407Mistral AI は、Plateforme 上の製品を 2 つの一般的なモデルに統合しています:Mistral Nemo と Mistral Large、および 2 つのモデルプロフェッショナル モデル: Codestral と Embed。 Plateforme のように古いモデルが段階的に廃止される中、すべての Apache モデル (Mistral 7B、Mistral 8x7B および 8x22B、Codestral Mamba、Mathstral を含む) は引き続き、Mistral AI の SDK (mistral-inference および misstral-finetune Finetune) を使用してデプロイおよびデプロイできます。
本日より、Plateforme の微調整機能を拡張しました。現在は、Mistral Large、Mistral Nemo、Codestral に対応しています。 さらに、Mistral AI はクラウド サービス プロバイダーと協力しており、Mistral Large 2 は間もなくこれらのプラットフォームで利用可能になります。 Mistral AI は、Google Cloud Platform とのパートナーシップを拡大し、マネージド API を介して Mistral AI のモデルを Vertex AI に導入しました。それまでの間、Amazon Bedrock、Azure AI Studio、IBM watsonx.ai でも見つけることができます。
参考リンク: https://mistral.ai/news/mistral-large-2407/https://venturebeat.com/ai/mistral-ショック-with-new-open-model-mistral-large-2-aking-on-llama-3-1/
https://techcrunch.com/2024/07/24/mistral-releases- large-2-meta-openai-ai-models/
The above is the detailed content of Precision sniper Llama 3.1? Mistral AI open source Large 2, 123B is comparable to Llama 405B. For more information, please follow other related articles on the PHP Chinese website!