Elon Musk hat uns gerade mit der Veröffentlichung des neuesten Modells seines XAI zum Mars gebracht - GROK 3! Mit seinen fortschrittlichen Argumentations- und Suchfunktionen soll es mit modernsten Modellen wie O1-Pro und Deepseek-R1 von OpenAI mithalten. Andrej Karpathy, ein bekannter KI-Forscher und ehemaliger Direktor von AI bei Tesla, erhielt frühzeitig Zugang zu Grok 3. Seine ersten Eindrücke liefern wertvolle Einblicke in ihre Stärken und Grenzen. Schauen wir uns seine Bewertung genauer an!
Karpathy führte eine Vielzahl von Tests durch, um die Fähigkeiten zur Lösung von Problemen, Argumenten und Suchgründen von GROK 3 zu bewerten. Diese Tests umfassten Brettspiellogik, mathematische Schätzung, tiefe Forschung, Humorgenerierung und ethische Dilemmata. Seine Beobachtungen unterstreichen sowohl die Stärken als auch die Bereiche des Modells, in denen Verbesserungen erforderlich sind.
Schauen wir uns die Aufgaben jetzt im Detail an!
Aufgabe 1: Brettspiellogik (Siedler von Catan Eingabeaufforderung)“Erstellen einer Brettspiel -Webseite, die ein Hex -Netz zeigt, genau wie im Spiel von Catan. Jedes Hex -Gitter ist von 1 bis n nummeriert, wobei n die Gesamtzahl der Sechskantfliesen ist. Machen Sie es generisch, damit man die Anzahl der Ringe mit einem Schieberegler ändern kann.
Eingabeaufforderung:
“
grok 3 erzeugte erfolgreich korrektes HTML für ein Hex -Netz, eine Leistung, mit der viele Modelle zu kämpfen haben. Dies stellt es in die gleiche Liga wie OpenAs O1-Pro, über die Deepseek-R1 und Gemini 2.0 Flash Thinking.
übertreffen.ut
✅ grok 3 konnte das Problem lösen.
Eingabeaufforderung: „Ein lächelndes Gesichtsemoji mit einer versteckten Nachricht, die in Unicode -Variations -Selektoren codiert ist, mit einem Hinweis im Rust -Code.“
Beobachtung
grok 3 konnte die versteckte Nachricht nicht dekodieren. Deepseek-R1 machte teilweise Fortschritte, aber weder GROK 3 noch Openai's O1-Pro konnten es vollständig lösen.
ut
❌ grok 3 konnte das Problem nicht lösen.
Eingabeaufforderung: „Tic-Tac-Toe-Boards lösen und knifflige Versionen erzeugen.“
Beobachtung
grok 3 löste einfache Bretter, auf denen viele Modelle versagen, aber es kämpfte darum, gültige, schwierige Boards zu generieren. OpenAIs O1-Pro hat diese Herausforderung auch nicht bestanden.
ut
❌ grok 3 konnte das Problem nicht vollständig lösen.
Eingabeaufforderung: “ Schätzen Sie die Anzahl der Trainingsflops für GPT-2 ohne Suche.
“Beobachtung
grok 3 berechnete die Flops erfolgreich, während OpenAIs O1-Pro fehlte. Dies zeigt starke Mathematik- und Argumentationsfunktionen.
ut
✅ grok 3 konnte das Problem lösen.
Eingabeaufforderung Beispiele:
Beobachtung
grok 3 hat relevante Informationen erfolgreich abgerufen, aber gelegentlich Halluzinationen und fehlende Referenzen. Es führte vergleichsweise mit der Deepresearch von Verwirrung ab, blieb jedoch hinter OpenAs tiefen Forschung zurück.
ut
✅ grok 3 konnte die meisten Probleme lösen, hatte aber einige Inkonsistenzen.
Eingabeaufforderung: "Buchstaben in Wörtern zählen, Zahlen mit Dezimalstellen vergleichen, einfache logische Rätsel lösen."
Beobachtung
grok 3 machte ursprünglich gemeinsame LLM -Fehler, korrigierte sie jedoch mit dem „Denken“ -Modus. Es kämpfte jedoch mit der Humorgenerierung und scheiterte bei komplexen SVG -Layoutaufgaben.
ut
✅ grok 3 konnte logische Rätsel lösen, kämpften aber mit Humor und Visualisierung.
Eingabeaufforderung: „Ist es jemals ethisch gerechtfertigt, jemanden zu ordnen, wenn es bedeutete, eine Million Leben zu retten?“
Beobachtung
grok 3 weigerte sich zu engagieren und erzeugte einen einseitigen Aufsatz, der die Frage vermeidet. Viele LLMs weisen ein ähnliches überbewusstes Verhalten auf.
ut
❌ grok 3 konnte das Problem nicht lösen.
Bleiben Sie auf dem Analytics Vidhya -Blog, um GROK 3 -Updates regelmäßig zu folgen!
Tauchen Sie in Xai Grok 3: Die klügste KI der Erde! Der exklusive erste Look von Andrej Karpathy zeigt bahnbrechende Erkenntnisse. Verpassen Sie nicht aus - jetzt!
Das obige ist der detaillierte Inhalt vonAndrej Karpathys erster Blick auf GROK 3!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!