Grok 3行动：游戏开发，推理等-人工智能-PHP中文网

在Xai的Grok-3早期访问阶段，AI爱好者，开发人员和研究人员毫不犹豫地浪费了时间来推动其限制并探索其功能。从游戏开发到推理测试，第一印象表明，Grok-3是AI领域中的一个认真竞争者，与OpenAI的顶级模型DeepSeek-R1和Google的Gemini媲美。

Grok 3行动：游戏开发，推理等

但是，什么使Grok与其他AI模型不同？为什么会引起如此多的关注？

> 目录的

grok-3性能：飞行上的游戏开发
- 深度搜索：用于研究和现实世界查询的AI
数学和逻辑推理
grok-3绩效：现实世界物理学物理学
grok：Xai对开放，无限制的AI
>随着
- 的发布，这个愿景现在已成为现实。
- Grok的起源：从Openai到Xai
马斯克是Openai早期研究的主要投资者，资助其发展并倡导开源，非营利性方法。
>这在AI研究中留下了差距 - 穆斯克认为AI是将定义人类未来的五种关键技术之一。

麝香的复出：Xai＆Grok

的诞生

见证了Chatgpt的爆炸性成功后，马斯克知道他必须采取行动。 2023年3月，他正式发射了Xai，将他的重新进入了AI开发。

> 2024年，Xai通过在短短19天内建立世界上最大的AI超级计算机来创造历史，这是一项壮观的壮举，以至于NVIDIA的首席执行官Jensen Huang称其为“超级人类”。

grok的核心承诺：没有偏见的AI

>许多现有的AI模型（例如Chatgpt和Claude）经常因“唤醒”或在政治上过于正确而受到批评。有人认为他们的内置偏见会导致危险或误导性结论。

埃隆·马斯克（Elon Musk）对Grok的愿景不同。

>他设想了一个“寻求真相”的AI，该AI提供了客观事实而无需过滤或软化信息以适合社会或政治叙事。

真理是不舒服还是有争议的，Grok旨在追求它，就像其竞争对手一样，反映了硅谷公司的价值。

让我们看看专家说的话：
grok-3性能：飞行游戏开发

Grok 3刚刚发布。您不会相信它，我已经创建了一个游戏。

（今天早上我得到了早期的访问）。

这个游戏是由Grok创建的100％，我只是告诉了我想要的东西，然后将代码放在正确的位置。

>我一直在要求调整，它一直在吐痰……pic.twitter.com/bmtie3u4kf
- penny2x（@impenny2x）2025年2月18日
>
“我只是告诉了我想要的东西，然后构建了游戏。
>最引人注目的早期用例之一来自Penny2X，他在访问后数小时仅使用Grok-3从头开始制造了整个游戏。
>

“这个游戏是由Grok创建的100％。我只是告诉了我想要的东西，然后将代码放在正确的位置。我一直在要求调整，并且它一直在我可以运行的一个文件中吐出游戏。
>对于开发人员来说，这是巨大的。 AI生成的游戏代码并不是什么新鲜事物，但是Grok-3在没有API集成的情况下如此无缝地执行此操作，并且与GPT-4O和SONET这样的模型的感觉非常出色。如果Grok-3可以更好地集成到开发人员工作流程中，它可能会改变独立开发人员和工作室创建游戏的方式。

我的

这是一个令人兴奋的里程碑。 Grok-3的实时调整和生成可运行的游戏代码的能力可能意味着开发人员的原型更快。如果XAI优化其用于生产使用的API，我们可能会看到AI辅助游戏开发的重大转变。

grok-3性能：推理和解决问题：一个真正的“思考” AI？

>
>我今天早些时候就可以尽早进入Grok 3，这让我我认为最初可以进行快速氛围检查的人之一。

思考
✅>首先，Grok 3显然具有艺术性思维模型的状态（Think Think'按钮）（“ Think Think”按钮）（“ Think”按钮），并且在我的定居者的catan of Catean of Catean of catan Imppoter and toppoter y。（@karpathy）2025年2月18日

Andrej Karpathy的“ Vibe检查”：Grok-3可以思考吗？ AI先驱Andrej Karpathy将Grok-3带入了复杂的推理和解决问题的任务。他最大的收获？ Grok-3的“ Think”模式是一种改变游戏规则。

“ Grok 3显然具有一个最新的思维模型（“思考”按钮），并且在我定居者的Catan问题上开箱即用。很少有模型可靠地获得正确的选择。顶级的OpenAI型号（O1-Pro，每月200美元），但是DeepSeek-R1，Gemini 2.0 Flash Thinking和Claude却没有。

>他还测试了逻辑难题，TIC-TAC-TOE董事会的生成和数学估计（例如计算GPT-2的训练拖鞋）。在需要深层推理的任务中，Grok-3的表现优于GPT-4O和O1-PRO，即使没有自己的推理功能，这也使估计任务失败了。

>“我得到的印象是Grok-3在O1-Pro能力周围，并且在DeepSeek-R1之前。但是，Grok-3并不完美。它在一些拼图生成任务上挣扎，表情符号编码挑战，并且在信息检索中仍然偶尔会产生幻觉。我的

“思考”模式似乎是Grok-3最大的优势之一。在大多数聊天机器人与实时解决问题的时代中，Grok-3在逻辑上“通过”复杂的查询（而不仅仅是反流答案）的能力使它领先于许多竞争对手。但是，正如Karpathy所指出的那样，真正的基准和评估将讲述完整的故事。

也请阅读：Andrej Karpathy对Grok 3！> grok-3 vs.其他AI模型：如何堆叠？

不仅是推理，还针对有关知识检索，深入搜索，幽默和道德决策的领先模型的Grok-3进行了测试。

深度搜索：研究和现实世界查询

的AI

karpathy指出，Grok-3的“深度搜索”功能与Openai的深入研究和困惑的搜索模型相当，在实时查询中表现良好，例如：>

“即将到来的Apple启动是怎么回事？
“白莲花第3季拍摄的地方在哪里？ 但是，它显示出一些弱点，例如幻觉的URL，避免X（Twitter）作为来源，并且缺少某些主张的引用。
grok-3成功解决了：✅估计

（gpt-4o＆o1-pro失败！）

✅试图解决> riemann假设，而不是完全放弃（与Gemini＆Claude！）但是，它仍然在以下错误中犯错：棘手的棋盘游戏生成

（失败复杂的TIC-TAC-TOE设置！）

emoji emoji emoji编码神秘的谜题 > > >> >

（笑话感到通用，缺乏智慧！）

我的

在某些推理任务中，Grok-3似乎与OpenAI的最佳型号（O1-Pro，200美元/月）相提并论。但是，它仍然需要进行幽默，实时研究准确性和拼图产生的改进。

grok-3性能：现实世界物理模拟

> grok 3可能是现实世界物理学的最佳基础LLM！

>提示：“在旋转的tesseract中写下球弹跳的python脚本”。

没有“思考”或“大脑”模式启用，它就是基础模型。我对尝试他们的推理模型非常感兴趣。 pic.twitter.com/fv2rfebb4j
- yuchen jin（@yuchenj_uw）2025年2月18日

ai研究人员yuchen jin在基于物理的编码挑战上测试了Grok-3 ，并印象深刻。

“ Grok 3可能是现实世界中最佳的基础LLM！提示：‘在旋转的Tesseract中写下球弹跳的python脚本。’启用了“思考”模式，只有基本模型。我对尝试他们的推理模型非常感兴趣。

我的如果Grok-3可以有效地处理物理模拟，那么对于研究人员，工程师和开发人员来说，这可能是模拟较重的领域的巨大胜利。

grok-3 Wake？

刚获得3 grok 3，我现在的准确性使我感到震惊？ pic.twitter.com/poeigyfnml

- 2025年2月18日，⚡️DezmondOliver⚡️（@dezmondoliver）这引起了关于视觉模型中AI偏见的有趣讨论。尽管Grok-3看起来很高级，但AI模型仍然在细微的身份表示方面挣扎。这并不是Grok独有的 - 许多AI系统，包括Midjourney，Dall·E和稳定的扩散，在无偏表示方面面临着类似的挑战。

最终判决：Grok-3是一个真正的AI竞争者吗？