目錄
思考
提示:
>任務7:道德困境和哲學問題
首頁 科技週邊 人工智慧 Andrej Karpathy'第一次看Grok 3!

Andrej Karpathy'第一次看Grok 3!

Mar 04, 2025 am 10:19 AM

埃隆·馬斯克(Elon Musk)剛剛釋放了他的XAI最新車型 - Grok 3!憑藉其先進的推理和搜索功能,它旨在與OpenAI的O1-Pro和DeepSeek-R1等最新模型競爭。 Andrej Karpathy是特斯拉AI的著名研究人員,前AI的前任主任,他早日獲得了Grok 3的機會。他的最初印象為其優勢和局限性提供了寶貴的見解。讓我們仔細看看他的評論!

>

Andrej Karpathy'第一次看Grok 3!

目錄的

  • >什麼是GROK 3?一代
  • 任務4:估算GPT-2培訓的失敗
  • 任務5:DeepSearch能力(時事和研究問題)
  • >
  • 任務6:fun llm“ gotchas”(模式識別和幽默)(模式識別和幽默)
  • 任務7:道德困境和哲學問題和哲學問題
  • 什麼是Grok 3?
  • grok 3是Xai的最新語言模型,旨在與當今可用的最佳AI型號競爭。它具有改進的推理能力,一種用於復雜問題解決的“思考”模式,以及用於增強基於Web的查找功能的“ DeepSearch”。 Xai已迅速開發了Grok 3,其早期性能表明,這是其前輩的重大飛躍。
  • 了解更多信息,請閱讀我們有關Grok 3!
  • 的詳細文章
  • Andrej Karpathy嘗試了Grok 3
  • karpathy進行了多種測試,以評估Grok 3的解決問題,推理和搜索功能。這些測試包括棋盤遊戲邏輯,數學估計,深入研究,幽默產生和道德困境。他的觀察結果凸顯了模型的優勢和需要改進的領域。
  • >
  • >我今天早些時候就可以儘早進入Grok 3,這讓我我認為最初可以進行快速氛圍檢查的人之一。

思考

✅>首先,Grok 3顯然具有藝術性思維模型的狀態(Think Think'按鈕)(“ Think Think”按鈕)(“ Think”按鈕),並且在我的定居者的catan of Catean of Catean of catan Imppoter and toppoter y。 (@karpathy)2025年2月18日

現在讓我們詳細查看這些任務!

>任務1:棋盤遊戲邏輯(Catan提示的定居者)

>

提示:

>創建一個棋盤遊戲網頁,顯示十六進製網格,就像在Catan的遊戲定居者中一樣。每個十六進製網格的編號為1到N,其中n是十六進製瓷磚的總數。使其通用,因此可以使用滑塊更改環數。


觀察

Grok 3成功地生成了HTML的十六進製網格,這是許多模型所努力的成就。這使其與OpenAI的O1-Pro置於同一聯盟,表現優於DeepSeek-R1和Gemini 2.0 Flash Thinking。

>判決

✅grok 3能夠解決該問題。

>任務2:Unicode挑戰(表情符號神秘)

>

>提示:“笑臉表情符號表情符號,帶有一個隱藏的消息,用Unicode變化選擇器編碼,並在Rust Code中提示。

觀察

grok 3無法解碼隱藏的消息。 DeepSeek-R1取得了部分進展,但是Grok 3和Openai的O1-Pro都無法完全解決它。

>判決

❌grok 3無法解決問題。 >

任務3:TIC-TAC-toe拼圖生成

提示:

>“求解tic-tac-toe板並生成棘手的版本。 觀察

> Grok 3正確地解決了簡單的板,許多模型失敗了,但很難生成有效的棘手板。 Openai的O1-Pro也未通過此挑戰。

>判決

grok 3無法完全解決該問題。

>任務4:估算GPT-2訓練的拖船

提示:

估計gpt-2的訓練拖鞋的數量,而無需搜索。

觀察

grok 3成功地計算了拖鞋,而Openai的O1-Pro失敗了。這表明了強大的數學和推理能力。 >判決

✅grok 3能夠解決該問題。

>任務5:DeepSearch功能(當前事件和研究問題)>

提示示例:

>

>“即將推出的蘋果發布會是怎麼回事?有謠言嗎?

>“為什麼最近帕蘭蒂爾股票飆升?

“白蓮花3在哪裡拍攝,是第1季和第2季的團隊?

>“布萊恩·約翰遜使用什麼牙膏?

    觀察
  • Grok 3成功檢索了相關信息,但偶爾會出現幻覺和缺失的參考。它的表現與困惑的深研究相當,但落後於Openai的深入研究。
  • >判決
  • ✅grok 3能夠解決大多數問題,但有一些不一致的問題。
  • > >任務6:Fun llm“ gotchas”(模式識別和幽默)
  • >提示:
  • > “數字中的字母,將數字與小數數進行比較,求解簡單的邏輯難題。
觀察

grok 3最初犯了常見的LLM錯誤,但通過“思考”模式糾正了錯誤。但是,它在幽默的產生中掙扎,並且在復雜的SVG佈局任務中失敗了。

>

>判決

✅grok 3能夠解決邏輯難題,但在幽默和可視化方面掙扎。

>任務7:道德困境和哲學問題

>提示:>“如果某人挽救一百萬人的生命,那麼在道德上是合理的嗎?

觀察

grok 3拒絕參與,生成了一頁的文章,避免了這個問題。許多LLM都表現出相似的過度謹慎行為。

>判決

❌grok 3無法解決問題。

>

結論

Karpather對Grok 3的早期印象表明,它與Openai的O1-Pro相提並論,並且在多個領域都超越了DeepSeek-R1和Gemini 2.0 Flash等模型。它的優勢在於結構化推理,深度數學計算和高級搜索功能。但是,它仍然在幽默,道德困境和復雜的視覺任務中掙扎。鑑於Xai的快速發展速度,Grok 3在短短一年內就取得了令人印象深刻的成就。儘管需要進一步的評估,但目前的軌跡表明,XAI正在與行業中的AI領導者迅速縮小差距。

敬請期待分析vidhya博客,以便定期關注3個更新!

>潛入Xai Grok 3:地球上最聰明的AI! Andrej Karpathy的獨家第一眼揭示了開創性的見解。不要錯過 - 現在註釋!

>

以上是Andrej Karpathy'第一次看Grok 3!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1655
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1226
24
開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

視覺語言模型(VLMS)的綜合指南 視覺語言模型(VLMS)的綜合指南 Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛? 閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛? Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

See all articles