わずか数ヶ月前、DeepseekのV3、R1、およびJanusモデルはAIコミュニティで波を作りました。 現在、Elon Musk's Grok 3がアリーナに入り、「地球上で最も賢いAI」の称号を誇っています。 Xaiの最初のベンチマークは印象的で、さまざまなテストで3つの競合他社を上回る3つの競合他社を示しています。しかし、それは日常のタスクでどのように機能しますか? 40ドルのプレミアムサブスクリプションには価値がありますか?この記事では、Grok 3とDeepseek R1を5つの多様なプロンプトで比較して、
目次:
タスク1:pythonコード生成
プロンプト: "Python関数を作成して、深さ-first検索を使用してランダム迷路を生成し、matplotlibを使用して視覚化します。
(元のテキストのコードと画像の比較を参照してください。元のフォーマットと画像を維持します。) 観察:
deepseek R1は、明確でよく構造化された迷路を生成しました。 DFSを使用しているにもかかわらず、Grok 3の出力はピクセル化されており、あまり定義されていませんでした。評決:grok3❌deepseek r1
タスク2:web検索
(注:Deepseek R1は、このタスクに独自の検索機能を使用しました。 プロンプト:
"2025年の核融合技術の最新の進歩は何ですか?形式:進歩のリスト。(元のビデオが埋め込まれていることを維持します。)
観察:deepseek R1は、各クレームに対して検証可能なソースを提供し、より包括的で信頼できる応答を提供します。 Grok 3には直接的なソースリンクがあり、X(以前のTwitter)のような信頼性の低いソースに依存していました。
評決:grok3❌deepseek r1
タスク3:基本的なHTMLアニメーションプロンプト:
"正方形内で連続的に回転する赤いボールのHTML CSSコードを作成します。 (元のコードスニペットとビデオ埋め込みを維持します。)
観察:
Grok 3は、正しいコードを生成するのに苦労しました。 Deepseek R1は、遅くなりますが、正確で機能的なコードを提供しました評決:grok3❌deepseek r1
タスク4:画像分析(チェス)
プロンプト:「このチェスボードの位置を分析します。白が黒をチェックメイトして推論を説明するための最良の動きを提案します。
(元の画像の比較を維持します。)観察:
両方のモデルがチェックメイトを正しく識別できなかった。
評決:grok3❌deepseek r1
タスク5:論理的推論(ゼブラパズル)
プロンプト:「このゼブラパズルを解決します。テーブルの出力を教えてください。」
>(元の画像の比較を維持します。)
観察:deepseek r1はパズルを正しく解決しました。 Grok 3はそうではありませんでした
評決:grok3❌deepseek r1
grok 3対deepseek R1:結果(元のテーブルを維持します。)
結論
Grok 3の「最も賢いAI」であるというマーケティングの主張は、この現実世界のテストによってサポートされていませんでした。 Deepseek R1は、一貫して精度、構造、検証可能性のGROK 3を上回っていました。 Grok 3は一部の領域で可能性を示しましたが、論理的推論と複雑な問題解決の弱点は重要です。 将来の更新がGrok 3を改善するかどうかはまだ不明です。 結果は、Xaiがトレーニング方法の大幅な改善が必要であることを示唆しています。
(アクションやブログのリンクへの元の呼び出しを維持します。)
以上がGrok 3 vs Deepseek R1:どちらが良いですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。