Grok 3 en action: développement de jeux, raisonnement et plus-IA-php.cn

Au cours de la phase d'accès précoce du GROK-3 de XAI, les amateurs de l'IA, les développeurs et les chercheurs n'ont pas perdu de temps à repousser ses limites et à explorer ses capacités. Du développement du jeu aux tests de raisonnement, les premières impressions suggèrent que Grok-3 est un concurrent sérieux dans l'espace de l'IA, rivalisant avec les modèles de premier niveau d'Openai, Deepseek-R1, et les Gémeaux de Google.

Grok 3 en action: développement de jeux, raisonnement et plus

Mais qu'est-ce qui rend Grok différent des autres modèles d'IA? Et pourquoi at-il tant attirer l'attention?

Table des matières

GROK-3 Performance: Développement de jeu à la volée
Grok-3 Performance: Raisonnement et résolution de problèmes: un véritable "Thinking" Ai?
- Andrej Karpathy's "Ambise Check": peut penser Grok-3? Comment s'accumule-t-il?
Recherche profonde: AI pour la recherche et les requêtes du monde réel
Raisonnement mathématique et logique
- Grok-3 Performance: les simulations physiques du monde réel
Est-ce Grok-3 Woke?
Verdct final: Grok-3 est-il révisé? Contender?
Forces
faiblesses
- Conclusion

Avec la sortie de

Grok-3

, cette vision devient maintenant une réalité.

Les origines de Grok: d'Openai à Xai Pour comprendre pourquoi Grok existe, nous devons revenir sur les premiers jours d'Openai. Peu de gens réalisent qu'Openai a été initialement façonné par Elon Musk, qui était l'un de ses co-fondateurs aux côtés de Sam Altman, Greg Brockman et d'autres.

Musk était le principal investisseur dans les premières recherches d'Openai, finançant son développement et plaidant pour une approche à but non lucratif open-source.

Cependant, alors qu'OpenAI est passé à une entreprise à but lucratif à but lucratif, Musk était en désaccord avec ce changement et s'est séparé de l'organisation.

Cela a laissé une lacune dans la recherche sur l'IA - celle que Musk a trouvé frustrant, étant donné sa conviction que l'IA est l'une des cinq technologies clés qui définiront l'avenir de l'humanité.

En 2024, Xai est entré dans l'histoire en construisant le plus grand supercalculateur d'IA au monde en seulement 19 jours - un exploit si remarquable que le PDG de Nvidia, Jensen Huang, l'a appelé «surhumain».
xai ne s'est pas arrêté là; Ils étendent maintenant leur pouvoir de calcul à 200 000 GPU, garantissant qu'ils restent en avance dans l'infrastructure d'IA.

Avec ces incroyables percées, Grok-3 est maintenant devenu l'un des modèles d'IA les plus puissants jamais créés.

La promesse principale de Grok: une AI sans biais

De nombreux modèles d'IA existants - tels que Chatgpt et Claude - sont souvent critiqués pour être «réveillés» ou trop politiquement corrects. Certains soutiennent que leurs biais intégrés peuvent conduire à des conclusions dangereuses ou trompeuses.

La vision d'Elon Musk pour Grok est différente.

Il envisage une IA de «recherche de vérité», qui offre des faits objectifs sans filtrer ni adoucir les informations pour s'adapter aux récits sociaux ou politiques.
Que la vérité soit inconfortable ou controversée, Grok est conçu pour le poursuivre - contrairement à ses concurrents, qui reflètent les valeurs des entreprises de la Silicon Valley.

Cette approche non filtrée et basée sur la réalité pourrait distinguer Grok en tant que changeur de jeu en éthique de l'IA et en diffusion de l'information.

Voyons ce que les experts disent:

GROK-3 Performance: Développement de jeux à la volée

Grok 3 vient d'être libéré. Vous ne le croirez pas, j'ai déjà créé un jeu.

(J'ai eu un accès anticipé ce matin).

Ce jeu a été créé à 100% par Grok, je viens de lui dire ce que je voulais et j'ai mis le code au bon endroit.

Je continue de demander des ajustements, et il continue de cracher… pic.twitter.com/bmtie3u4kf
— Penny2x (@ Impenny2x) 18 février 2025

"Je viens de lui dire ce que je voulais, et il a construit le jeu."

L'un des cas d'utilisation précoce les plus révélateurs provient de Penny2x, qui a construit un jeu entier à partir de zéro en utilisant uniquement Grok-3 dans les heures suivant l'accès.

«Ce jeu a été créé à 100% par Grok. Je viens de lui dire ce que je voulais et de mettre le code au bon endroit. Je continue de demander des ajustements, et il continue de cracher le jeu dans un seul fichier que je peux exécuter. »

C'est énorme pour les développeurs. Le code de jeu généré par l'IA n'est pas nouveau, mais le fait que Grok-3 le fasse si parfaitement, sans intégration d'API, et se sent à égalité avec des modèles comme GPT-4O et SONET est remarquable. Si Grok-3 peut mieux s'intégrer dans les flux de travail des développeurs, cela pourrait changer la façon dont les développeurs et les studios indépendants créent des jeux.

ma prise

Il s'agit d'une étape excitante. Les ajustements en temps réel de GROK-3 et la capacité de générer du code de jeu coulant peuvent signifier un prototypage plus rapide pour les développeurs. Si XAI optimise son API pour une utilisation en production, nous pourrions voir un changement majeur dans le développement de jeux assisté par l'IA.

GROK-3 Performance: raisonnement et résolution de problèmes: une véritable «pensée» ai?

J'ai eu un accès précoce à Grok 3 plus tôt dans la journée, faisant de moi je pense que l'une des premières qui pourraient effectuer une vérification rapide de l'ambiance.

Penser
✅ Tout d'abord, Grok 3 a clairement un bouton de pensée artistique ("pensée") et a fait très bien de la boîte (@Karpathy) 18 février 2025

"VIBE CHECK" d'Andrej Karpathy: Grok-3 peut-il penser?

AI Pioneer Andrej Karpathy a mis Grok-3 à l'épreuve avec des tâches de raisonnement et de résolution de problèmes complexes. Son plus grand point à retenir? Le mode «Think» de Grok-3 change la donne.

"Grok 3 a clairement un modèle de pensée de pointe (bouton" Pensez "), et a fait très bien de la boîte sur la question de mon colon de Catan. Peu de modèles obtiennent ce droit de manière fiable. Les meilleurs modèles OpenAI (O1-Pro, 200 $ / mois) le font, mais Deepseek-R1, Gemini 2.0 Flash Thinking, et Claude ne le font pas. »

Il a également testé des énigmes logiques, une génération de planches TIC-TAC-TOE et des estimations mathématiques (comme le calcul des flops d'entraînement de GPT-2). Dans les tâches nécessitant un raisonnement approfondi, Grok-3 a surpassé GPT-4O et O1-Pro, qui ont échoué la tâche d'estimation même avec leurs propres caractéristiques de raisonnement.

"L'impression que j'ai obtenue est que Grok-3 est quelque part autour de la capacité O1-Pro et en avance sur Deepseek-R1."

Cependant, Grok-3 n'est pas parfait. Il a lutté avec certaines tâches de génération de puzzle, les émoji codant pour les défis et présente encore des hallucinations occasionnelles dans la récupération de l'information.

ma prise

Le mode «Think» semble être l’une des plus grandes forces de Grok-3. À une époque où la plupart des chatbots ont du mal avec la résolution de problèmes en temps réel, la capacité de Grok-3 à «travailler» logiquement à travers des requêtes complexes (plutôt que de régurgiter les réponses) met en avant de nombreux concurrents. Cependant, comme le note Karpathy, de véritables repères et des évaluations raconteront toute l'histoire.

Lisez également: le premier regard d'Andrej Karpathy sur Grok 3!

GROK-3 Vs autres modèles d'IA: comment est-il en train de s'accumuler?

Au-delà du simple raisonnement, Grok-3 a été testé contre les principaux modèles sur la récupération des connaissances, la recherche profonde, l'humour et la prise de décision éthique.

Recherche profonde: AI pour la recherche et les requêtes du monde réel

Karpathy a noté que la fonctionnalité de «recherche profonde» de Grok-3 est comparable aux modèles de recherche en profondeur d'Openai et de perplexité, fonctionnant bien sur les requêtes en temps réel comme:

"Quoi de neuf avec le prochain lancement d'Apple?"
"Pourquoi les stocks de Palantir sont-ils montés en marche?"
"Où a été filmé la saison 3 de White Lotus?"

Cependant, il a montré quelques faiblesses, comme les URL hallucinantes, en évitant X (Twitter) comme source, et des citations manquantes pour certaines affirmations.

Raisonnement mathématique et logique

Grok-3 successfully tackled:
✅ Estimating GPT-2’s training FLOPs (which GPT-4o & o1-pro failed!)
✅ Solving tic-tac-toe puzzles (which many SOTA models struggle avec!)
✅ Tenter de résoudre l'hypothèse Riemann , plutôt que d'abandonner carrément (contrairement à Gemini & Claude!)

Cependant, il a quand même fait des erreurs:
❌ Génération de jeux de plateau délicate (Configuration du complexe Tic-Toe échoué!)
❌ emoji Encodage de puzzle mystery (Deepseek-R1 a fait emoji. Mieux!)
❌ Comprendre l'humour (les blagues se sentent génériques, manquant d'esprit!)

ma prise

GROK-3 semble être à égalité avec les meilleurs modèles d'Openai (O1-Pro, 200 $ / mois) tout en dépassant les Gémeaux et Deepseek-R1 dans certaines tâches de raisonnement. Cependant, il a encore besoin de raffinement dans l'humour, la précision de la recherche en temps réel et la génération de puzzle.

GROK-3 Performance: Simulations de physique du monde réel

Grok 3 pourrait être le meilleur LLM de base pour la physique du monde réel!

Invite: "Écrivez un script python d'une balle rebondissant dans un mode Tesseract". Je suis très intéressé à essayer leurs modèles de raisonnement. pic.twitter.com/fv2rfebb4j
— Yuchen Jin (@yuchenj_uw) 18 février 2025

AI CHEARGER

Yuchen Jin

a testé Grok-3 sur défis de codage basés sur la physique et a été impressionné.

«Grok 3 pourrait être le meilleur LLM de base pour la physique du monde réel! Invite: «Écrivez un script python d'une balle rebondissant à l'intérieur d'un Tesseract. Je suis très intéressé à essayer leurs modèles de raisonnement. "

ma prise

Si GROK-3 peut gérer efficacement les simulations de physique, cela pourrait être une énorme victoire pour les chercheurs, les ingénieurs et les développeurs dans des domaines riches en simulation.

Grok-3 est-il réveillé?

Je viens de recevoir Grok 3 et je suis époustouflé par la précision qu'il a maintenant? pic.twitter.com/poeigyfnml

- ⚡️Dezmond Oliver⚡️ (@dezmondoliver) 18 février 2025

Cela soulève une discussion intéressante sur le biais d'IA dans les modèles visuels. Alors que Grok-3 semble très avancé, les modèles d'IA ont toujours du mal avec les représentations de l'identité nuancés. Ce n'est pas unique à Grok - de nombreux systèmes d'IA, y compris MidJourney, Dall · E et diffusion stable, sont confrontés à des défis similaires dans une représentation impartiale.

Verdict final: Grok-3 est-il un vrai concurrent AI?

Forces

✅ Le mode de raisonnement de pointe («Pensez» est en concurrence avec les meilleurs)
✅ EXCELS dans les puzzles logiques, la recherche profonde et la recherche en temps réel
✅ Le développement de jeux avec l'IA est maintenant plus fluide et plus rapide
✅ Le codage physique montre des résultats prometteurs

faiblesses

❌ Hallucine toujours les informations et génère de fausses URL
❌ Lux se débat avec l'humour et la créativité dans la génération de blagues
❌ La génération de jeux de puzzle et de jeu de société a besoin de travail

GROK-3 est également le tout premier modèle à dépasser un score de 1400, établissant une nouvelle référence pour les modèles de grande langue (LLM). Cependant, actuellement, il ne montre pas Grok-3 dans la Chabot Arena - version Web!

Grok 3 en action: développement de jeux, raisonnement et plus

Lire aussi: Grok-3 (nom de code «chocolat») est maintenant n ° 1 dans Chatbot Arena

Conclusion

Les performances de Grok-3 sont indéniablement impressionnantes. En seulement un an, Xai a construit un modèle qui rivalise avec les LLM les plus forts d'Openai et surpasse Deepseek-R1 et Gemini dans le raisonnement.

Cependant, ce n'est pas parfait. Alors que le mode «pensée» améliore le raisonnement, il y a encore de la place à l'amélioration dans la vérification des faits, l'humour et les tâches créatives complexes.

Avec des raffinements dans la recherche en profondeur, l'intégration des développeurs et le raisonnement réel, Grok-3 a le potentiel d'être une IA révolutionnaire qui défie Openai et Google au sommet. Grok-3 est officiellement dans le jeu. Maintenant, voyons comment il évolue.

Faites-moi savoir vos réflexions sur Grok-3 dans la section des commentaires ci-dessous!

Déverrouiller l'avenir avec Xai Grok 3: L'IA la plus intelligente sur Terre! Plongez dans le développement de jeux, le raisonnement avancé et les tâches du monde réel. Inscrivez-vous maintenant et maîtrise l'innovation AI! »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!