GPT-5 ist noch nicht draußen, Grok hat aufgeholt.
Am selben Tag, an dem Google und OpenAI gegenseitig Nachrichten abholten, war auch Musks xAI nicht untätig. Am Mittwochnachmittag Pekinger Zeit veröffentlichte xAI offiziell das Großmodell Grok 2 der neuen Generation. Chatbot Arena, eine externe große Model-Benchmark-Organisation, hat auch sofort die Ergebnisliste der LMSYS-Liste aktualisiert. Das frühe Modell von Grok 2 (sus-column-r) liegt direkt hinter GPT-4o (Version 0513) auf Platz vier und übertrifft Claude 3.5 Sonnet und GPT-4-Turbo. Es zeichnet sich durch Programmieren, komplexe Probleme und Mathematik aus. Musk konnte nicht anders, als zu prahlen: „Groks Antriebsgeschwindigkeit ist wie eine Rakete.“ Beachten Sie, dass dies nur die Punktzahl der frühen Version ist, die laut Chatbot Arena getestet wird die offizielle Version in der Zukunft. Musk sagte, dass Grok-2 ein fortschrittliches Sprachmodell mit den fortschrittlichsten Argumentationsfähigkeiten ist. Die neue Generation umfasst zwei Versionen: Grok-2 und Grok-2 mini. Beide Modelle sind jetzt auf der X-Plattform für Grok-Benutzer verfügbar. Derzeit können Benutzer von X Premium und Premium+ bereits die Modelle Grok-2 und Grok-2 mini erleben. Im Vergleich zum vorherigen Grok-1.5 hat die frühe Vorschauversion von Grok-2 erhebliche Fortschritte erzielt und führende Fähigkeiten in den Bereichen Chat, Argumentation, Codierung usw. demonstriert. Laut xAI befinden sich Grok-2 und Grok-2 mini derzeit in der Beta-Phase auf dem X und werden später in diesem Monat über eine Unternehmens-API verfügbar sein. Weniger als eine halbe Stunde nach der Veröffentlichung des neuen Modells präsentierte ein Internetnutzer bereits die Ergebnisse. Er nutzte Grok 2 mini, um ein Bild von „Ich und Musk beim Hotdog-Essen“ zu erstellen. Probieren Sie andere Methoden aus, um ein Porträt von Washington zu erstellen. Einige Leute haben auch Grok 2 Mini ausprobiert, um eine fliegende Katze zu erzeugen. Jemand anderes hat ein Tesla Model Y gebaut, sieht es ähnlich aus? Da xAI die frühe Version von Grok-2 „sus-column-r“ in die Chatbot Arena einbrachte, sahen wir, dass es mit anderen beliebten Switches konkurrierte. Leistungsvergleich der Quelle Modelle. In Bezug auf den gesamten Elo-Score schneidet Grok-2 besser ab als Modelle der Claude-Serie und die meisten Versionen von GPT-4. Der erste auf der Liste ist natürlich GPT-4o (Version vom 8. August), das OpenAI gerade erst veröffentlicht hat. Das Bild unten zeigt den Win-Rate-Vergleich zwischen Grok-2 und anderen beliebten Modellen. Das Bild unten zeigt einen faktenbasierten Vergleich der Gewinnraten zwischen den beiden Versionen von Grok 1.5 und Grok 2.xAI wendet diesen Prozess an, um das Grok-2-Modell zu evaluieren, und nutzt AI-Tutoren, um bei verschiedenen Aufgaben wirklich mit dem Modell zu interagieren. Bei jeder Interaktion gibt Grok 2 den KI-Tutoren zwei Antworten und wählt dann die beste Antwort basierend auf bestimmten im Leitfaden aufgeführten Kriterien aus. xAI konzentriert sich auf die Bewertung der Modellleistung in zwei Schlüsselbereichen, nämlich der Befolgung von Anweisungen und der Bereitstellung genauer, authentischer Informationen. Die Ergebnisse zeigen deutliche Verbesserungen in der Fähigkeit von Grok 2, aus abgerufenen Inhalten Schlüsse zu ziehen und Tools wie die korrekte Identifizierung fehlender Informationen, das Durchdenken von Ereignissequenzen, das Verwerfen irrelevanter Beiträge usw. zu verwenden. xAI bewertete das Grok-2-Modell anhand einer Reihe akademischer Benchmarks, darunter Argumentation, Leseverständnis, Mathematik, Naturwissenschaften und Codierung. Sowohl der Grok-2 als auch der Grok-2 mini sind deutliche Verbesserungen gegenüber dem Vorgängermodell Grok-1.5. Die Leistung ist mit anderen Spitzenmodellen in Bereichen wie naturwissenschaftlichem Wissen auf Hochschulniveau (GPQA), Allgemeinwissen (MMLU, MMLU-Pro) und Mathematikwettbewerbsproblemen (MATH) vergleichbar. Darüber hinaus schneidet Grok-2 auch bei visionsbasierten Aufgaben gut ab, mit bemerkenswerten Leistungen beim visuellen mathematischen Denken (MathVista) und der dokumentenbasierten Fragebeantwortung (DocVQA). Grok 2-Schnittstelle und Funktionalität „große Überarbeitung“ In den letzten Monaten hat xAI das Grok-Erlebnis auf der x-Plattform kontinuierlich verbessert. Jetzt, mit der Einführung der nächsten Generation von Grok 2, hat xAI die Benutzeroberfläche neu gestaltet, wie unten gezeigt. Natürlich bietet xAI einige neue Features, wie zum Beispiel eine einfache Umsetzung von Conways „Game of Life“. Ein weiteres Beispiel ist die multimodale Verständnisfähigkeit (Bilder anschauen und sprechen). Unter diesen ist Grok-2 der fortschrittlichste KI-Assistent von xAI, mit Text- und visuellen Verständnisfunktionen und integrierten Echtzeitinformationen von der X-Plattform, auf die über die Registerkarte „Grok“ in der X-Anwendung zugegriffen werden kann. Der Grok-2 mini ist ein kleines, aber leistungsstarkes Modell, das eine gute Balance zwischen Geschwindigkeit und Antwortqualität schafft. Im Vergleich zu seinem Vorgänger ist Grok-2 intuitiver, kontrollierbarer und flexibler und eignet sich für eine Vielzahl von Aufgaben, egal ob Sie nach Antworten suchen, kollaborativ schreiben oder Codierungsaufgaben lösen möchten. Darüber hinaus arbeitet xAI mit dem Startup Black Forest Labs zusammen, um mit dessen FLUX.1-Modell zu experimentieren und die Fähigkeiten von Grok auf X zu erweitern. Später in diesem Monat wird xAI auch Grok-2 und Grok-2 mini über eine neue Unternehmens-API-Plattform für Entwickler freigeben. Die kommende API basiert auf einem neuen benutzerdefinierten Technologie-Stack, der multiregionale Inferenzbereitstellungen für globalen Zugriff mit geringer Latenz ermöglicht. Natürlich bietet xAI auch einige erweiterte Sicherheitsfunktionen, wie z. B. eine obligatorische Multi-Faktor-Authentifizierung (z. B. mittels Yubikey, Apple TouchID oder TOTP). Wie Sie sehen können, hat xAI diese Modellreihe seit der Einführung von Grok-1 im November 2023 in alarmierendem Tempo weiterentwickelt. Bald werden sie eine Vorschauversion mit multimodalem Verständnis veröffentlichen. Der Schwerpunkt nach xAI wird darauf liegen, die Kern-Folgefähigkeiten des Modells durch neue Rechencluster zu verbessern. Blog-Adresse: https://x.ai/blog/grok-2Das obige ist der detaillierte Inhalt vonGrok-2 ist da, es kann Bilder erzeugen und Bilder erkennen, und seine Leistung ist vergleichbar mit GPT-4o Musk: Es entwickelt sich wie eine Rakete. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!