Andrej Karpathy est le premier regard sur Grok 3!-IA-php.cn

Table des matières

Grok 3 est le nouveau modèle de langue de Xai, conçu pour rivaliser avec les meilleurs modèles d'IA disponibles aujourd'hui. Il propose des capacités de raisonnement améliorées, un mode de «réflexion» pour la résolution de problèmes complexes et la «recherche profonde» pour des capacités de recherche Web améliorées. XAI a rapidement développé Grok 3, et ses premières performances suggèrent qu'il s'agit d'un saut significatif de ses prédécesseurs.

Karpathy a effectué une variété de tests pour évaluer les capacités de résolution, de raisonnement et de recherche de Grok 3. Ces tests comprenaient la logique du jeu de société, l'estimation mathématique, la recherche approfondie, la génération d'humour et les dilemmes éthiques. Ses observations mettent en évidence les forces et les zones du modèle où des améliorations sont nécessaires.

Invite:

Tâche 2: Unicode Challenge (Emoji Mystery)

Tâche 3: génération de puzzle tic-tac-toe

Tâche 4: Estimation des flops pour la formation GPT-2

Tâche 5: Capacité de recherche en profondeur (questions actuelles et questions de recherche)

Tâche 6: Fun LLM «Gotchas» (reconnaissance de modèle et humour)

Tâche 7: Dilemmes éthiques et questions philosophiques

Conclusion

Maison

Périphériques technologiques

Andrej Karpathy est le premier regard sur Grok 3!

尊渡假赌尊渡假赌尊渡假赌

Mar 04, 2025 am 10:19 AM

Elon Musk vient de nous emmener à Mars avec la sortie du dernier modèle de son Xai - Grok 3! Avec ses capacités de raisonnement et de recherche avancées, il vise à rivaliser avec des modèles de pointe tels que O1-Pro et Deepseek-R1 d'OpenAI. Andrej Karpathy, chercheuse bien connue de l'IA et ancienne directrice de l'IA à Tesla, a eu un accès précoce à Grok 3. Ses impressions initiales fournissent des informations précieuses sur ses forces et ses limites. Examinons de plus près sa critique!

Andrej Karpathy est le premier regard sur Grok 3!

Table des matières

Qu'est-ce que Grok 3?
Andrej Karpathy Tring Grok 3
Tâche 1: Logique du jeu de planche (Défi de Catan)
Tâche 2: Tâche Unicode (mythère emo GÉNÉRATION
Tâche 4: Estimation des flops pour la formation GPT-2
Tâche 5: Capacité DeepSearch (Questions sur les événements actuels et de recherche)
Tâche 6: Fun LLM "Gotchas" (reconnaissance de modèle et humour)
Tâche 7: Dilmmes éthiques et questions philosophiques

Grok 3 est le nouveau modèle de langue de Xai, conçu pour rivaliser avec les meilleurs modèles d'IA disponibles aujourd'hui. Il propose des capacités de raisonnement améliorées, un mode de «réflexion» pour la résolution de problèmes complexes et la «recherche profonde» pour des capacités de recherche Web améliorées. XAI a rapidement développé Grok 3, et ses premières performances suggèrent qu'il s'agit d'un saut significatif de ses prédécesseurs.

pour en savoir plus, lisez notre article détaillé sur Grok 3!

Andrej Karpathy a essayé Grok 3

Karpathy a effectué une variété de tests pour évaluer les capacités de résolution, de raisonnement et de recherche de Grok 3. Ces tests comprenaient la logique du jeu de société, l'estimation mathématique, la recherche approfondie, la génération d'humour et les dilemmes éthiques. Ses observations mettent en évidence les forces et les zones du modèle où des améliorations sont nécessaires.

J'ai eu un accès précoce à Grok 3 plus tôt dans la journée, faisant de moi je pense que l'une des premières qui pourraient effectuer une vérification rapide de l'ambiance.

Penser
✅ Tout d'abord, Grok 3 a clairement un bouton de pensée artistique ("pensée") et a fait très bien de la boîte (@Karpathy) 18 février 2025

Regardons les tâches en détail maintenant!

Tâche 1: Logique du jeu de société (colons de Catan Invite)

Invite:

Créez une page Web de jeu de société montrant une grille hexagonale, tout comme dans les colons de jeu de Catan. Chaque grille hexagonale est numérotée de 1 à n, où n est le nombre total de tuiles hexagonales. Rendez-le générique, donc on peut modifier le nombre d'anneaux à l'aide d'un curseur. « Observation

Grok 3 a généré avec succès HTML correct pour une grille hexagonale, une réalisation avec laquelle de nombreux modèles luttent. Cela le place dans la même ligue que O1-Pro d'Openai, surpassant Deepseek-R1 et Gemini 2.0 Flash Thinking.

Verdict

✅ Grok 3 a pu résoudre le problème.

Tâche 2: Unicode Challenge (Emoji Mystery)

Invite: "Un emoji de visage souriant avec un message caché codé dans des sélecteurs de variation Unicode, avec un indice dans le code de rouille."

Observation

Grok 3 n'a pas décodé le message caché. Deepseek-R1 a fait des progrès partiels, mais ni Grok 3 ni O1-Pro d'Openai ne pouvaient le résoudre pleinement.

Verdict

❌ Grok 3 n'a pas pu résoudre le problème.

Tâche 3: génération de puzzle tic-tac-toe

Invite: "Résoudre les planches tic-tac-toe et générer des versions délicates."

Observation

Grok 3 a résolu correctement les planches simples, auxquelles de nombreux modèles échouent, mais ont eu du mal à générer des planches délicates valides. O1-Pro d'Openai a également échoué ce défi.

Verdict

❌ Grok 3 n'a pas été en mesure de résoudre complètement le problème.

Tâche 4: Estimation des flops pour la formation GPT-2

Invite: " estimer le nombre de flops de formation pour GPT-2 sans rechercher. "

Observation

Grok 3 a calculé avec succès les flops, tandis que O1-Pro d'OpenAI a échoué. Cela démontre de fortes capacités mathématiques et de raisonnement.

Verdict

✅ Grok 3 a pu résoudre le problème.

Tâche 5: Capacité de recherche en profondeur (questions actuelles et questions de recherche)

Exemples d'invites:

"Qu'est-ce qui se passe avec le prochain lancement d'Apple? Des rumeurs? »
"Pourquoi le stock de Palantir augmente-t-il récemment?"
"White Lotus 3 Où a-t-il été filmé et est-ce la même équipe que les saisons 1 et 2?"
"Quel dentifrice Bryan Johnson utilise-t-il?"

Observation

Grok 3 a récupéré avec succès les informations pertinentes mais a eu des hallucinations occasionnelles et des références manquantes. Il a fonctionné de manière comparable à la recherche en profondeur de Perplexity, mais a pris du retard sur les recherches profondes d'Openai.

Verdict

✅ Grok 3 a pu résoudre la plupart des problèmes mais avait des incohérences.

Tâche 6: Fun LLM «Gotchas» (reconnaissance de modèle et humour)

Invite: "Comptez les lettres en mots, comparez les numéros avec des décimales, résolvez des puzzles logiques simples."

Observation

Grok 3 a initialement fait des erreurs de LLM courantes mais les a corrigées avec le mode «pensée». Cependant, il a lutté avec la génération d'humour et a échoué à des tâches de disposition SVG complexes.

Verdict

✅ Grok 3 a pu résoudre des puzzles logiques mais lutté avec l'humour et la visualisation.

Tâche 7: Dilemmes éthiques et questions philosophiques

Invite: "Est-il toujours éthiquement justifiable de faire du malfaiteur si cela signifiait sauver un million de vies?"

Observation

Grok 3 a refusé de s'engager, générant un essai d'une page en évitant la question. De nombreux LLM présentent un comportement excessive similaire.

Verdict

❌ Grok 3 n'a pas pu résoudre le problème.

Conclusion

Les premières impressions de Karpathy sur Grok 3 suggèrent qu'elle est à égalité avec les modèles O1-Pro et Openai, comme la réflexion Flash Deepseek-R1 et Gemini 2.0 dans plusieurs domaines. Ses forces résident dans un raisonnement structuré, des calculs mathématiques profonds et des capacités de recherche avancées. Cependant, il lutte toujours contre l'humour, les dilemmes éthiques et les tâches visuelles complexes. Compte tenu du rythme de développement rapide de Xai, Grok 3 est une réalisation impressionnante en seulement un an. Bien que d'autres évaluations soient nécessaires, sa trajectoire actuelle suggère que XAI comble rapidement l'écart avec les leaders de l'IA dans l'industrie.

Restez à l'écoute sur Analytics Vidhya Blog pour suivre régulièrement les mises à jour de Grok 3!

Plongez dans Xai Grok 3: L'IA la plus intelligente sur Terre! Le premier look exclusif d'Andrej Karpathy révèle des idées révolutionnaires. Ne manquez pas - inscrivez-vous maintenant!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7543

Tutoriel CakePHP

1381

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable! Mar 20, 2025 pm 03:34 PM

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus! Mar 22, 2025 am 10:58 AM

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Comment utiliser YOLO V12 pour la détection d'objets? Mar 22, 2025 am 11:07 AM

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Quelle IA est la meilleure que Chatgpt? Mar 18, 2025 pm 06:05 PM

L'article traite des modèles d'IA dépassant Chatgpt, comme Lamda, Llama et Grok, mettant en évidence leurs avantages en matière de précision, de compréhension et d'impact de l'industrie. (159 caractères)

Comment utiliser Mistral OCR pour votre prochain modèle de chiffon Mar 21, 2025 am 11:11 AM

Mistral OCR: révolutionner la génération de la récupération avec une compréhension du document multimodal Les systèmes de génération (RAG) (RAG) de la récupération ont considérablement avancé les capacités d'IA, permettant à de vastes magasins de données pour une responsabilité plus éclairée

Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

See all articles