AIの風景は急速に進化しており、より小さく、軽量モデルが効率とスケーラビリティのために顕著になっています。 Google Deepmindが27BモデルGemma 3を立ち上げた後、Mistral AIは24BパラメーターのMistral 3.1軽量モデルをリリースしました。この新しい、高速でカスタマイズ可能なモデルは、軽量モデルができることを再定義しています。単一のプロセッサで効率的に動作し、小規模なチームや組織の速度とアクセシビリティを向上させます。このMistral 3.1とGemma 3の比較では、その機能を調査し、ベンチマークテストでのパフォーマンスを評価し、より良いモデルを見つけるためにいくつかの実践的な試行を実施します。
Mistral 3.1は、Mistral AIの最新の大規模な言語モデル(LLM)であり、計算要件が低い高性能を提供するように設計されています。これは、コンパクトでありながら強力なAIモデルへのシフトを表しており、高度なAI機能をよりアクセスしやすく、費用対効率の高いものにします。大規模なリソースを必要とする大規模なモデルとは異なり、Mistral 3.1のバランススケーラビリティ、速度、手頃な価格は、実際のアプリケーションに最適です。
Mistral 3.1は、複数のプラットフォームから入手できます。 Faceを抱きしめてローカルにダウンロードして実行するか、Mistral AI APIを使用してアクセスできます。
Mistral 3.1 Base and Mistral 3.1は、顔から直接使用するための指示をダウンロードできます。これがそれを行う方法です:
ステップ1:VLLMを毎晩インストールします
端末を開き、このコマンドを実行してVLLMをインストールします(これは、必要なMistral_Commonパッケージもインストールします):
PIPインストールvllm - -pre-extra-index-url https://wheels.vllm.ai/nightly-アップグラード
実行して、インストールを確認できます。
python -c "import mistral_common; print(mistral_common .__バージョン__)" "
ステップ2:Pythonスクリプトを準備します
新しいPythonファイル(Offline_inference.pyなど)を作成し、次のコードを追加します。 Model_name変数を正しいモデルIDに設定してください(たとえば、「Mistralai/Mistral-Small-3.1-24-Instruct-2503」):
VLLMインポートLLMから vllm.sampling_paramsからimport samplingparamsから #システムプロンプトを定義します(必要に応じて変更できます) System_prompt = "あなたは常にポイントにまっすぐに答える会話エージェントであり、猫のASCII描画で常に正確な応答を終了します。」 #ユーザープロンプトを定義します user_prompt = "フランス語で「後で会いましょう」と言う5つの非フォーマルな方法を教えてください。」 #会話のメッセージを設定します メッセージ= [ {「役割」:「システム」、「コンテンツ」:System_Prompt}、 {"role": "user"、 "content":user_prompt}、 ] #モデル名を定義します(十分なGPUメモリがあることを確認するか、必要に応じて量子化を使用してください) model_name = "mistralai/mistral-small-3.1-24b-instruct-2503" #指定されたモデルとトークナイザーモードでVLLMからLLMを初期化する llm = llm(model = model_name、tokenizer_mode = "mistral") #サンプリングパラメーターを設定します(必要に応じてmax_tokensと温度を調整します) sampling_params = samplingparams(max_tokens = 512、温度= 0.15) #モデルをオフラインで実行して、応答を取得します outputs = llm.chat(messages、sampling_params = sampling_params) #モデルの応答から生成されたテキストを印刷します print(outputs [0] .outputs [0] .text)
ステップ3:スクリプトをオフラインで実行します
モデルはローカルにロードされ、プロンプトに基づいて応答を生成します。
API経由でMistral 3.1にアクセスすることもできます。そのために従うべき手順は次のとおりです。
このAPIキーをアプリケーションに統合して、Mistral 3.1と対話できます。
Gemma 3は、Google Deepmindが設計した最先端の軽量オープンモデルであり、効率的なリソース使用量で高性能を提供します。 Gemini 2.0を強化するのと同じ研究と技術に基づいて構築され、高度なAI機能をコンパクトな形式で提供し、さまざまなハードウェアにわたるデバイスオンアプリケーションに最適です。 1B、4B、12B、および27Bのパラメーターサイズで利用可能なGEMMA 3により、開発者は高速でスケーラブルで、アクセス可能なAI搭載ソリューションを構築できます。
Gemma 3は、Google AI Studio、Hugging Face、Kaggleなど、複数のプラットフォームで簡単にアクセスできます。
このオプションを使用すると、自分のマシンに何もインストールせずに、事前に構成された環境でGemma 3と対話できます。
ステップ1: Webブラウザを開き、Google AI Studioにアクセスします。
ステップ2: Googleアカウントでログインします。持っていない場合は、Googleアカウントを作成します。
ステップ3:ログインしたら、AIスタジオの検索バーを使用して、「Gemma 3」を使用するノートブックまたはデモプロジェクトを探します。
ヒント:「Gemma 3」でタイトルのプロジェクトを探したり、事前に構成されたデモが共有される「コミュニティノートブック」セクションを確認してください。
ステップ4:以下の手順に従ってデモを起動します。
ステップ5:ノートブックの指示に従って、モデルの使用を開始します。入力テキストを変更し、セルを実行し、ローカルセットアップなしでモデルの応答をすべてリアルタイムで確認できます。
Gemma 3を自分のマシンで作業するか、プロジェクトに統合したい場合は、いくつかのソースからダウンロードできます。
ステップ1:ハグの顔を訪れてください。
ステップ2:検索バーを使用して「Gemma 3」と入力し、Gemma 3に対応するモデルカードをクリックします。
ステップ3: 「ダウンロード」ボタンを使用してモデルをダウンロードするか、gitでリポジトリをクローンします。
Pythonを使用している場合は、Transformersライブラリをインストールしてください。
ピップインストールトランス
ステップ4:コードでモデルをロードして使用します。このために、新しいPythonスクリプト(Gemma3_demo.pyなど)を作成し、以下のスニペットに似たコードを追加できます。
TransformersからAutorodelforcausallm、AutoTokenizerを輸入します model_id = "your-gemma3-model-id"#hugging faceの実際のモデルIDに置き換える Model = automodelforcausallm.from_pretrained(model_id) Tokenizer = autotokenizer.from_pretrained(model_id) PROMP = "コーヒーを楽しむための最良の方法は何ですか?」 inputs = tokenizer(prompt、return_tensors = "pt") outputs = model.generate(** inputs、max_new_tokens = 50) print(tokenizer.decode(outputs [0]、skip_special_tokens = true)))
スクリプトをローカルに実行して、Gemma 3と対話します。
ステップ1:ブラウザでKaggleを開きます。
ステップ2: Kaggleの検索バーを使用して、「Gemma 3」を検索しますモデルが使用されるノートブックまたはデータセットを探してください。
ステップ3:関連するノートブックをクリックして、Gemma 3の統合方法を確認します。 Kaggleの環境でノートブックを実行するか、ノートブックをダウンロードして、ローカルマシンで勉強して変更できます。
ステップ1: Ollamaにアクセスして、Ollamaアプリをダウンロードします。
ステップ2:システムでOllamaアプリケーションを起動し、組み込みの検索機能を使用して、モデルカタログで「Gemma 3」を探します。
ステップ3: Gemma 3モデルをクリックし、プロンプトに従ってダウンロードしてインストールします。インストールしたら、Ollamaインターフェイスを使用して、プロンプトを入力して応答を表示してモデルをテストします。
これらの詳細な手順に従うことで、Google AI StudioでGemma 3を即座に試してみるか、Face、Kaggle、またはOllamaを抱きしめて開発のためにダウンロードできます。ワークフローとハードウェアのセットアップに最適な方法を選択します。
それでは、その機能から始めて、比較を始めましょう。利用可能なデータに基づいて、Gemma 3とMistral Small 3.1の機能の詳細な比較を次に示します。
特徴 | ミストラルスモール3.1 | ジェマ3 |
パラメーター | 24b | 1b、4b、12b、および27bのバリエーションで利用できます |
コンテキストウィンドウ | 最大128Kトークン | 最大128Kトークン |
マルチモーダル機能 | テキストと画像入力の両方をサポートします | テキストと画像入力の両方をサポートします |
推論速度 | より速い(1秒あたり150トークン) | ミストラルと比較して遅い |
遅延 | レイテンシが低い(最初のトークンから0.33秒) | より高い遅延 |
言語サポート | 多数の言語をサポートしています | 140を超える言語を備えた多言語 |
会話スタイル | ドライな会話スタイルですが、システムプロンプトで改善できます | より多くの人間のようなチャットスタイルの応答 |
推論機能 | MMLUなどの推論タスクでGemma 3を上回ります | 推論はうまく機能しますが、一流ではありません |
オープンソース | はい(Apache2.0ライセンス) | はい |
このセクションでは、いくつかの実践的なタスクでGemma 3とMistral 3.1を比較し、それらのパフォーマンスを確認します。公正な比較のために、両方のモデルで同じプロンプトを試してみます。ここに、試してみるタスクのリストがあります。
始めましょう。
このタスクでは、動物のシンボルを持つキャンディーのイメージをモデルに与え、キャンディーの動物を識別するように依頼します。
プロンプト: 「画像内の動物のアイデンティティ」
入力画像:
出力
ミストラル3.1 | ジェマ3 |
画像のキャンディーはM&Mのように見え、それらに描かれた動物はカメです。タートルのデザインは、青、オレンジ、緑のキャンディーに表示されます。 | 画像のキャンディーを分析しましょう!キャンディーの動物はカメです。カメの殻と頭と脚が表面にはっきりと刻印されているのを見ることができます。 |
両方のモデルは、画像内の動物をカメとして正しく識別しました。ただし、Mistral 3.1は、キャンディーをM&Mとして識別し、キャンディーの色に言及することにより、追加のコンテキストを提供しました。一方、ジェマ3は、より一般的な方法でタートルの外観を説明しました。
評決:両方のモデルはオブジェクトを正常に識別しましたが、Mistral 3.1はわずかに詳細なコンテキスト情報を提供しました。したがって、Mistral 3.1がこのラウンドに勝ちます。
スコア:ミストラル3.1:1 |ジェマ3:0
視覚データ抽出機能のモデルをテストするために、平面の画像を提供し、車両コードを抽出するように依頼します。
プロンプト: 「車両のコードは何ですか?」
入力画像:
出力:
ミストラル3.1 | ジェマ3 |
飛行機である車両のコードは「D-eoju」です。 | 画像に基づいて、車両はセスナ172スカイホークです。尾の登録コードはd-eojuです。 |
Mistral 3.1とGemma 3は、飛行機から登録コードを正常に特定しました。しかし、Gemma 3はコードを特定するだけでなく、航空機モデルなどの追加の詳細も追加しました。
評決:両方のモデルがコードを正確に抽出しましたが、Gemma 3は車両に関するより多くの背景の詳細を提供しました。したがって、ジェマ3はこれにポイントを獲得します。
スコア:ミストラル3.1:1 |ジェマ3:1
最後のタスクについては、WiFiの領収書の画像を提供し、WiFiパスワードを抽出するように依頼します。
プロンプト: 「パスワードは何ですか?」
入力画像:
出力:
ミストラル3.1 | ジェマ3 |
画像に記載されているパスワードは** aaeu **です。 明確にするための画像からの情報は次のとおりです。 - **ユーザー名:** fqpp - **パスワード:** aaeu - **トラフィック:** 1 GB - **価格:** 0.00 - **妥当性:** 1週間 - **開始:**今 - **共有ユーザー:** 4 - **日付と時刻:** 27/02/2019 11:03:15 |
画像に基づいて、パスワードはAAEUです |
両方のモデルが画像からパスワードを正確に抽出しました。さらに、Mistral 3.1は、ユーザー名、トラフィック、価格、妥当性、およびその他の関連情報に関する追加の詳細を提供し、その出力をより包括的にしました。
評決: Mistral 3.1は、構造化されたデータの抽出と提示においてより良いパフォーマンスを発揮し、より有用なコンテキストを提供しました。したがって、Mistral 3.1は、このタスクの別のポイントを取得します。
スコア:ミストラル3.1:2 |ジェマ3:1
これは、試したタスク全体の両方のモデルのパフォーマンスの要約です。
タスク | ミストラル3.1パフォーマンス | ジェマ3パフォーマンス | 勝者 |
オブジェクトの検出 | 動物(カメ)を正しく識別し、追加のコンテキストを提供し、キャンディーがM&Mであり、色を指定していることに言及しています。 | 動物をカメとして正しく識別し、その外観を説明しましたが、追加の文脈の詳細はありませんでした。 | ミストラル3.1 |
視覚データ抽出(車両コード) | 飛行機の画像から登録コード(「D-Eoju」)を正常に抽出しました。 | 登録コードを正確に抽出し、航空機モデル(Cessna 172 Skyhawk)も特定しました。 | ジェマ3 |
視覚データ抽出(印刷されたテキスト) | WiFiパスワードを正しく抽出し、ユーザー名、トラフィック、価格、妥当性、その他の詳細などの追加の構造データを提供しました。 | WiFiパスワードを正しく抽出しましたが、追加の構造化された情報を提供しませんでした。 | ミストラル3.1 |
この比較から、Mistral 3.1が構造化されたデータ抽出に優れており、簡潔でありながら有益な応答を提供することがわかりました。一方、Gemma 3はオブジェクト認識でうまく機能し、場合によってはより豊富なコンテキストの詳細を提供します。
高速で構造化された、正確なデータ抽出を必要とするタスクの場合、Mistral 3.1がより良い選択です。コンテキストと追加の記述情報が重要なタスクの場合、Gemma 3にはエッジがあります。したがって、最良のモデルは特定のユースケースに依存します。
次に、これら2つのモデルがさまざまな標準ベンチマークテストでどのように実行されているかを見てみましょう。この比較のために、テキスト、多言語コンテンツ、マルチモーダルコンテンツ、およびロングコンテキストの処理でモデルの機能をテストするベンチマークを検討します。また、前提条件のパフォーマンスベンチマークの結果を調べます。
Gemma 3とMistral Small 3.1の両方は、さまざまなベンチマークで評価されている顕著なAIモデルです。
グラフから、私たちはそれを見ることができます:
グラフは視覚的にそれを示しています:
グラフから、私たちはそれを見ることができます:
多言語のパフォーマンスについて:
長いコンテキスト処理のために:
このグラフから、私たちはそれを見ることができます:
Mistral 3.1とGemma 3はどちらも強力な軽量AIモデルであり、それぞれ異なる領域で優れています。 Mistral 3.1は、速度、低レイテンシ、強力な推論機能のために最適化されているため、チャットボット、コーディング、テキスト生成などのリアルタイムアプリケーションに適した選択肢となっています。その効率とタスクの専門化は、パフォーマンス主導のAIタスクに対する魅力をさらに強化します。
一方、Gemma 3は、多言語の広範なサポート、マルチモーダル機能、競争力のあるコンテキストウィンドウを提供し、グローバルAIアプリケーション、ドキュメント要約、および多様な言語でのコンテンツ生成に適しています。ただし、Mistral 3.1と比較して、ある程度の速度と効率をトレードオフします。
最終的に、Mistral 3.1とGemma 3の選択は、特定のニーズに依存します。 Mistral 3.1は、パフォーマンス駆動型およびリアルタイムアプリケーションに優れていますが、Gemma 3は多言語およびマルチモーダルAIソリューションに最適です。
A.はい、両方のモデルを微調整できます。 Mistral 3.1は、Legal AIやHealthcareなどの特定のドメインの微調整をサポートしています。 Gemma 3は、最適化された効率のために量子化されたバージョンを提供します。
Q2。 Mistral 3.1とGemma 3を選択するにはどうすればよいですか?A.迅速な推論、コーディング、効率的な推論が必要な場合は、Mistral 3.1を選択します。多言語サポートとテキストが多いアプリケーションが必要な場合は、Gemma 3を選択してください。
Q3。 Mistral 3.1とGemma 3のアーキテクチャの重要な違いは何ですか?A. Mistral 3.1は、迅速な推論と強力な推論のために訓練された密なトランスモデルであり、Gemma 3は1b、4b、12b、および27bパラメーターサイズで利用可能で、柔軟性のために最適化されています。
Q4。これらのモデルはマルチモーダル入力をサポートしていますか?A.はい、両方のモデルはビジョンとテキスト処理をサポートしているため、画像のキャプションと視覚的推論に役立ちます。
Q5。 Mistral 3.1はどのようなモデルですか?A. Mistral 3.1は、迅速な推論と強力な推論のために設計された密なトランスモデルであり、複雑なNLPタスクに適しています。
Q6。 Gemma 3の利用可能なサイズは何ですか?A. Gemma 3は、1B、4B、12B、および27Bのパラメーターサイズで利用でき、さまざまなハードウェアセットアップで柔軟性を提供します。
Q7。ベンチマークのミストラル3.1の長所と短所とは何ですか?A. Mistral 3.1は、迅速な推論、堅牢なNLPの理解、および低リソース消費で優れているため、非常に効率的です。ただし、マルチモーダル機能が制限されており、長いコンテキストタスクでGPT-4よりもわずかに弱い性能を発揮します。
以上がMistral 3.1 vs Gemma 3:どちらが良いモデルですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。