Grok 3行動：遊戲開發，推理等-人工智慧-PHP中文網

在Xai的Grok-3早期訪問階段，AI愛好者，開發人員和研究人員毫不猶豫地浪費了時間來推動其限制並探索其功能。從遊戲開發到推理測試，第一印象表明，Grok-3是AI領域中的一個認真競爭者，與OpenAI的頂級模型DeepSeek-R1和Google的Gemini媲美。

Grok 3行動：遊戲開發，推理等

但是，什麼使Grok與其他AI模型不同？為什麼會引起如此多的關注？

> 目錄的

grok-3性能：飛行上的遊戲開發
- 深度搜索：用於研究和現實世界查詢的AI
數學和邏輯推理
grok-3績效：現實世界物理學物理學
grok：Xai對開放，無限制的AI
>隨著
- 的發布，這個願景現在已成為現實。
- Grok的起源：從Openai到Xai
馬斯克是Openai早期研究的主要投資者，資助其發展並倡導開源，非營利性方法。
>這在AI研究中留下了差距 - 穆斯克認為AI是將定義人類未來的五種關鍵技術之一。

麝香的複出：Xai＆Grok

的誕生

見證了Chatgpt的爆炸性成功後，馬斯克知道他必須採取行動。 2023年3月，他正式發射了Xai，將他的重新進入了AI開發。

> 2024年，Xai通過在短短19天內建立世界上最大的AI超級計算機來創造歷史，這是一項壯觀的壯舉，以至於NVIDIA的首席執行官Jensen Huang稱其為“超級人類”。

grok的核心承諾：沒有偏見的AI

>許多現有的AI模型（例如Chatgpt和Claude）經常因“喚醒”或在政治上過於正確而受到批評。有人認為他們的內置偏見會導致危險或誤導性結論。

埃隆·馬斯克（Elon Musk）對Grok的願景不同。

>他設想了一個“尋求真相”的AI，該AI提供了客觀事實而無需過濾或軟化信息以適合社會或政治敘事。

真理是不舒服還是有爭議的，Grok旨在追求它，就像其競爭對手一樣，反映了矽谷公司的價值。

讓我們看看專家說的話：
grok-3性能：飛行遊戲開發

Grok 3剛剛發布。您不會相信它，我已經創建了一個遊戲。

（今天早上我得到了早期的訪問）。

這個遊戲是由Grok創建的100％，我只是告訴了我想要的東西，然後將代碼放在正確的位置。

>我一直在要求調整，它一直在吐痰……pic.twitter.com/bmtie3u4kf
- penny2x（@impenny2x）2025年2月18日
>
“我只是告訴了我想要的東西，然後構建了遊戲。
>最引人注目的早期用例之一來自Penny2X，他在訪問後數小時僅使用Grok-3從頭開始製造了整個遊戲。
>

“這個遊戲是由Grok創建的100％。我只是告訴了我想要的東西，然後將代碼放在正確的位置。我一直在要求調整，並且它一直在我可以運行的一個文件中吐出遊戲。
>對於開發人員來說，這是巨大的。 AI生成的遊戲代碼並不是什麼新鮮事物，但是Grok-3在沒有API集成的情況下如此無縫地執行此操作，並且與GPT-4O和SONET這樣的模型的感覺非常出色。如果Grok-3可以更好地集成到開發人員工作流程中，它可能會改變獨立開發人員和工作室創建遊戲的方式。

我的

這是一個令人興奮的里程碑。 Grok-3的實時調整和生成可運行的遊戲代碼的能力可能意味著開發人員的原型更快。如果XAI優化其用於生產使用的API，我們可能會看到AI輔助遊戲開發的重大轉變。

grok-3性能：推理和解決問題：一個真正的“思考” AI？

>
>我今天早些時候就可以儘早進入Grok 3，這讓我我認為最初可以進行快速氛圍檢查的人之一。

思考
✅>首先，Grok 3顯然具有藝術性思維模型的狀態（Think Think'按鈕）（“ Think Think”按鈕）（“ Think”按鈕），並且在我的定居者的catan of Catean of Catean of catan Imppoter and toppoter y。（@karpathy）2025年2月18日

Andrej Karpathy的“ Vibe檢查”：Grok-3可以思考嗎？ AI先驅Andrej Karpathy將Grok-3帶入了複雜的推理和解決問題的任務。他最大的收穫？ Grok-3的“ Think”模式是一種改變遊戲規則。

“ Grok 3顯然具有一個最新的思維模型（“思考”按鈕），並且在我定居者的Catan問題上開箱即用。很少有模型可靠地獲得正確的選擇。頂級的OpenAI型號（O1-Pro，每月200美元），但是DeepSeek-R1，Gemini 2.0 Flash Thinking和Claude卻沒有。

>他還測試了邏輯難題，TIC-TAC-TOE董事會的生成和數學估計（例如計算GPT-2的訓練拖鞋）。在需要深層推理的任務中，Grok-3的表現優於GPT-4O和O1-PRO，即使沒有自己的推理功能，這也使估計任務失敗了。

>“我得到的印像是Grok-3在O1-Pro能力周圍，並且在DeepSeek-R1之前。但是，Grok-3並不完美。它在一些拼圖生成任務上掙扎，表情符號編碼挑戰，並且在信息檢索中仍然偶爾會產生幻覺。我的

“思考”模式似乎是Grok-3最大的優勢之一。在大多數聊天機器人與實時解決問題的時代中，Grok-3在邏輯上“通過”複雜的查詢（而不僅僅是反流答案）的能力使它領先於許多競爭對手。但是，正如Karpathy所指出的那樣，真正的基準和評估將講述完整的故事。

也請閱讀：Andrej Karpathy對Grok 3！ > grok-3 vs.其他AI模型：如何堆疊？

不僅是推理，還針對有關知識檢索，深入搜索，幽默和道德決策的領先模型的Grok-3進行了測試。

深度搜索：研究和現實世界查詢

的AI

karpathy指出，Grok-3的“深度搜索”功能與Openai的深入研究和困惑的搜索模型相當，在實時查詢中表現良好，例如：>

“即將到來的Apple啟動是怎麼回事？
“白蓮花第3季拍攝的地方在哪裡？ 但是，它顯示出一些弱點，例如幻覺的URL，避免X（Twitter）作為來源，並且缺少某些主張的引用。
grok-3成功解決了：✅估計

（gpt-4o＆o1-pro失敗！）

✅試圖解決> riemann假設，而不是完全放棄（與Gemini＆Claude！）但是，它仍然在以下錯誤中犯錯：棘手的棋盤遊戲生成

（失敗複雜的TIC-TAC-TOE設置！）

emoji emoji emoji編碼神秘的謎題 > > >> >

（笑話感到通用，缺乏智慧！）

我的

在某些推理任務中，Grok-3似乎與OpenAI的最佳型號（O1-Pro，200美元/月）相提並論。但是，它仍然需要進行幽默，實時研究準確性和拼圖產生的改進。

grok-3性能：現實世界物理模擬

> grok 3可能是現實世界物理學的最佳基礎LLM！

>提示：“在旋轉的tesseract中寫下球彈跳的python腳本”。

沒有“思考”或“大腦”模式啟用，它就是基礎模型。我對嘗試他們的推理模型非常感興趣。 pic.twitter.com/fv2rfebb4j
- yuchen jin（@yuchenj_uw）2025年2月18日

ai研究人員yuchen jin在基於物理的編碼挑戰上測試了Grok-3 ，並印象深刻。

“ Grok 3可能是現實世界中最佳的基礎LLM！提示：‘在旋轉的Tesseract中寫下球彈跳的python腳本。’啟用了“思考”模式，只有基本模型。我對嘗試他們的推理模型非常感興趣。

我的如果Grok-3可以有效地處理物理模擬，那麼對於研究人員，工程師和開發人員來說，這可能是模擬較重的領域的巨大勝利。

grok-3 Wake？

剛獲得3 grok 3，我現在的準確性使我感到震驚？ pic.twitter.com/poeigyfnml

- 2025年2月18日，⚡️DezmondOliver⚡️（@dezmondoliver）這引起了關於視覺模型中AI偏見的有趣討論。儘管Grok-3看起來很高級，但AI模型仍然在細微的身份表示方面掙扎。這並不是Grok獨有的 - 許多AI系統，包括Midjourney，Dall·E和穩定的擴散，在無偏表示方面面臨著類似的挑戰。

最終判決：Grok-3是一個真正的AI競爭者嗎？