埃隆·馬斯克(Elon Musk)剛剛釋放了他的XAI最新車型 - Grok 3!憑藉其先進的推理和搜索功能,它旨在與OpenAI的O1-Pro和DeepSeek-R1等最新模型競爭。 Andrej Karpathy是特斯拉AI的著名研究人員,前AI的前任主任,他早日獲得了Grok 3的機會。他的最初印象為其優勢和局限性提供了寶貴的見解。讓我們仔細看看他的評論!
>
現在讓我們詳細查看這些任務!
>任務1:棋盤遊戲邏輯(Catan提示的定居者)
提示:
“>創建一個棋盤遊戲網頁,顯示十六進製網格,就像在Catan的遊戲定居者中一樣。每個十六進製網格的編號為1到N,其中n是十六進製瓷磚的總數。使其通用,因此可以使用滑塊更改環數。
觀察
Grok 3成功地生成了HTML的十六進製網格,這是許多模型所努力的成就。這使其與OpenAI的O1-Pro置於同一聯盟,表現優於DeepSeek-R1和Gemini 2.0 Flash Thinking。
>判決
✅grok 3能夠解決該問題。>任務2:Unicode挑戰(表情符號神秘)
>
>提示:“笑臉表情符號表情符號,帶有一個隱藏的消息,用Unicode變化選擇器編碼,並在Rust Code中提示。
觀察grok 3無法解碼隱藏的消息。 DeepSeek-R1取得了部分進展,但是Grok 3和Openai的O1-Pro都無法完全解決它。
>判決
❌grok 3無法解決問題。 >
任務3:TIC-TAC-toe拼圖生成
提示:
>“求解tic-tac-toe板並生成棘手的版本。 觀察
> Grok 3正確地解決了簡單的板,許多模型失敗了,但很難生成有效的棘手板。 Openai的O1-Pro也未通過此挑戰。>判決
grok 3無法完全解決該問題。
>任務4:估算GPT-2訓練的拖船提示:
“估計gpt-2的訓練拖鞋的數量,而無需搜索。
觀察
grok 3成功地計算了拖鞋,而Openai的O1-Pro失敗了。這表明了強大的數學和推理能力。 >判決
✅grok 3能夠解決該問題。
>任務5:DeepSearch功能(當前事件和研究問題)> 提示示例: >
>“即將推出的蘋果發布會是怎麼回事?有謠言嗎? >“為什麼最近帕蘭蒂爾股票飆升? “白蓮花3在哪裡拍攝,是第1季和第2季的團隊?>“布萊恩·約翰遜使用什麼牙膏?
觀察
觀察- Grok 3成功檢索了相關信息,但偶爾會出現幻覺和缺失的參考。它的表現與困惑的深研究相當,但落後於Openai的深入研究。
- >判決
✅grok 3能夠解決大多數問題,但有一些不一致的問題。- > >任務6:Fun llm“ gotchas”(模式識別和幽默)
>提示:- > “數字中的字母,將數字與小數數進行比較,求解簡單的邏輯難題。
grok 3最初犯了常見的LLM錯誤,但通過“思考”模式糾正了錯誤。但是,它在幽默的產生中掙扎,並且在復雜的SVG佈局任務中失敗了。
>>判決
✅grok 3能夠解決邏輯難題,但在幽默和可視化方面掙扎。
>任務7:道德困境和哲學問題
>提示:>“如果某人挽救一百萬人的生命,那麼在道德上是合理的嗎?
觀察grok 3拒絕參與,生成了一頁的文章,避免了這個問題。許多LLM都表現出相似的過度謹慎行為。
>判決❌grok 3無法解決問題。
>結論
Karpather對Grok 3的早期印象表明,它與Openai的O1-Pro相提並論,並且在多個領域都超越了DeepSeek-R1和Gemini 2.0 Flash等模型。它的優勢在於結構化推理,深度數學計算和高級搜索功能。但是,它仍然在幽默,道德困境和復雜的視覺任務中掙扎。鑑於Xai的快速發展速度,Grok 3在短短一年內就取得了令人印象深刻的成就。儘管需要進一步的評估,但目前的軌跡表明,XAI正在與行業中的AI領導者迅速縮小差距。
敬請期待分析vidhya博客,以便定期關注3個更新!>潛入Xai Grok 3:地球上最聰明的AI! Andrej Karpathy的獨家第一眼揭示了開創性的見解。不要錯過 - 現在註釋!
>
以上是Andrej Karpathy'第一次看Grok 3!的詳細內容。更多資訊請關注PHP中文網其他相關文章!