僅幾個月前,DeepSeek的V3,R1和Janus模型在AI社區中引起了轟動。 現在,埃隆·馬斯克(Elon Musk)的格羅克(Grok)3進入了競技場,擁有“地球上最聰明的AI”標題。 XAI的最初基準非常令人印象深刻,顯示了在各種測試中超過3的競爭對手。但是它如何在日常任務上執行? $ 40 x高級訂閱值得嗎?本文比較了五個不同提示的Grok 3和DeepSeek R1。
目錄的
>任務1:Python代碼生成
> >提示:
“編寫一個python函數,使用深度優先搜索來生成一個隨機的迷宮,並使用matplotlib可視化。>(請參閱原始文本中的代碼和圖像比較。維護原始格式和圖像。)
觀察: DeepSeek R1產生了一個清晰,結構良好的迷宮。儘管使用了DFS,但Grok 3的輸出被像素化且定義較少。
>判決: grok 3❌deepSeek r1
>任務2:Web Search
(注意:DeepSeek R1用於此任務。)>
提示:“截至2025年,核融合技術的最新進步是什麼?格式:進步列表來源。 (維護原始視頻嵌入。)
> 觀察:
DeepSeek R1為每個索賠提供了可驗證的來源,提供了更全面和值得信賴的響應。 Grok 3缺少直接源鏈接,依賴於X(以前為Twitter)等可靠來源。>判決: grok 3❌deepSeek r1
>任務3:基本HTML動畫
>>提示:“創建HTML CSS代碼,以連續旋轉正方形。”
(維護原始代碼段和嵌入視頻。
>觀察:grok 3難以生成正確的代碼。 DeepSeek R1雖然較慢,但提供了準確且功能上的代碼。
>判決:grok 3❌deepSeek r1
任務4:圖像分析(國際象棋)> >
提示:“分析此棋盤位置。建議對白色的最佳動作來檢查黑色並解釋推理。”
(維護原始圖像比較。)>
觀察:兩個模型都無法正確識別檢查員。
>判決:grok 3❌deepSeek r1
任務5:邏輯推理(Zebra upzle)
提示:“解決這個斑馬拼圖。給我表中的輸出。”
>(維護原始圖像比較。)
>>觀察:
>判決: grok 3❌deepSeek r1
grok 3 vs. deepseek r1:結果>
(維護原始表。)
結論
> Grok 3的營銷主張是“最聰明的AI”,這一現實世界測試沒有支持。 DeepSeek R1在準確性,結構和可驗證性方面始終超過3。 儘管Grok 3在某些領域表現出潛力,但其邏輯推理和復雜問題解決方案的弱點很重要。 未來的更新是否會改善Grok 3還有待觀察。 結果表明,XAI需要對其培訓方法進行大量改進。
(維護原始的電話和博客鏈接。)>
以上是Grok 3與DeepSeek R1:哪個更好?的詳細內容。更多資訊請關注PHP中文網其他相關文章!