OpenAI に対するベンチマークを行うフランスの AI ユニコーンである Mistral AI は、新たな動きを行いました。初の大規模コード モデルである Codestral が誕生しました。
コード生成タスク専用に設計されたオープンな生成 AI モデルとして、Codestral は、命令と完了 API エンドポイントを共有することで、開発者がコードを作成して操作できるようにします。 Codestral のコーディングと英語の熟練により、ソフトウェア開発者は高度な AI アプリケーションを設計できます。
Codestral のパラメータ サイズは 22B で、新しい Mistral AI 非実稼働ライセンスに従っています。研究およびテスト目的で使用できますが、商用使用は禁止されています。
現在、モデルはHuggingFaceでダウンロードできます。
Mistral AI の共同創設者兼主任研究員である Guillaume Lample 氏は、Codestral は VS Code プラグインに簡単に統合できると述べました。
一部のユーザーは Codestral と GPT-4o を比較しましたが、Codestral は GPT-4o よりも直接的に高速でした。
Codestral は、Python、Java、C、C++、JavaScript、Bash、その他の一般的なプログラミング言語を含む、80 以上のプログラミング言語の多様なデータセットでトレーニングされています。 Swift や Fortran などのプログラミング言語でも優れたパフォーマンスを発揮します。
このように、幅広い言語ベースにより、Codestral はさまざまなコーディング環境やプロジェクトで開発者を支援できます。
Codestral はコードを適切に記述し、テストを記述し、中間補完メカニズムを使用してコード部分を完成させることができるため、開発者の時間とエネルギーを節約できます。 Codestral を同時に使用すると、開発者のコーディング スキルを向上させ、エラーやバグのリスクを軽減することもできます。
22B パラメーター モデルとして、Codestral は、以前の大規模コード モデルと比較して、コード生成パフォーマンスとレイテンシー ヘッドルームの点で新しい標準を設定します。
以下の図 1 からわかるように、Codestral のコンテキスト ウィンドウの長さは 32k、競合製品の CodeLlama 70B は 4k、DeepSeek Coder 33B は 16k、Llama 3 70B は 8k です。結果は、Codestral がコード生成リモート評価ベンチマーク RepoBench で他のモデルよりも優れていることを示しています。
Mistral AI は、Codestral を、より高いハードウェア要件を必要とする既存のコード固有のモデルと比較しました。
Python でのパフォーマンス。研究者らは、HumanEval pass@1 および MBPP サニタイズ済み pass@1 ベンチマークを使用して、Codestral の Python コード生成機能を評価しました。さらに、CruxEval および RepoBench EM ベンチマーク評価も使用しました。
SQL のパフォーマンス。 SQL での Codestral のパフォーマンスを評価するために、研究者らは Spider ベンチマークを使用しました。
他のプログラミング言語でのパフォーマンス。研究者らはまた、C++、bash、Java、PHP、Typescript、C# を含む他の 6 つのプログラミング言語でも Codestral を評価し、これらの評価の平均を計算しました。
FIM ベンチマーク。研究者らはまた、主に Python、JavaScript、Java で実験を行い、コード フラグメントにギャップがある場合にコードを完成させる Codestral の能力を評価しました。その結果、ユーザーは Codestral によって完成されたコードをすぐに実行できることがわかりました。
ブログアドレス:https://mistral.ai/news/codestral/
以上がGPT-4o を数秒で破り、Llama 3 70B を 22B で破り、Mistral AI が最初のコード モデルを公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。