Nach 750.000 Runden Einzelkampf zwischen großen Modellen gewann GPT-4 die Meisterschaft und Llama 3 belegte den fünften Platz-KI-php.cn

Inhaltsverzeichnis

Fast 90 Modelle traten in 750.000 Runden gegeneinander an

Ein großer Modelltest, an dem jeder teilnehmen kann

△Schematisches Diagramm, frühere Version

One More Thing

Heim

Technologie-Peripheriegeräte

Nach 750.000 Runden Einzelkampf zwischen großen Modellen gewann GPT-4 die Meisterschaft und Llama 3 belegte den fünften Platz

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2024 pm 03:28 PM

bootstrap 版本 gpt-4 排列 llama 3

Zu Llama 3 gibt es neue Testergebnisse -

Die große Modellbewertungs-Community LMSYS hat eine große Modell-Rangliste veröffentlicht, Llama 3 belegte den fünften Platz und belegte mit GPT-4 den ersten Platz in der englischen Kategorie.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Im Gegensatz zu anderen Benchmarks basiert diese Liste auf Modell-Eins-gegen-Eins-Kämpfen, und die Bewerter aus dem gesamten Netzwerk machen ihre eigenen Vorschläge und Bewertungen.

Am Ende belegte Llama 3 den fünften Platz auf der Liste, gefolgt von drei verschiedenen Versionen von GPT-4 und Claude 3 Super Cup Opus.

In der englischen Einzelliste überholte Llama 3 Claude und punktgleich mit GPT-4.

LeCun, Metas leitender Wissenschaftler, freute sich sehr über dieses Ergebnis, twitterte den Tweet erneut und hinterließ ein „Schön“.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Soumith Chintala, der Vater von PyTorch, äußerte sich ebenfalls begeistert, dass solche Ergebnisse unglaublich seien und er stolz auf Meta sei.

Die 400B-Version von Llama 3 ist noch nicht erschienen und sie hat den fünften Platz erreicht, indem sie sich nur auf 70B-Parameter verlassen hat ...
Ich erinnere mich noch daran, als GPT-4 im März letzten Jahres veröffentlicht wurde, war das fast unmöglich die gleiche Leistung erzielen.
…
Die Popularisierung von KI ist jetzt wirklich unglaublich und ich bin sehr stolz auf meine Kollegen bei Meta AI, die diesen Erfolg erzielt haben.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Welche konkreten Ergebnisse zeigt diese Liste?

Fast 90 Modelle traten in 750.000 Runden gegeneinander an

Seit der Veröffentlichung der neuesten Liste hat LMSYS fast 750.000 Einzelkampfergebnisse großer Modelle gesammelt, an denen 89 Modelle beteiligt waren.

Davon hat Llama 3 12.700 Mal teilgenommen, und GPT-4 hat mehrere verschiedene Versionen, wobei die meisten 68.000 Mal teilgenommen haben.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bild

Das Bild unten zeigt die Anzahl der Wettbewerbe und Gewinnquoten einiger beliebter Modelle. Keiner der beiden Indikatoren im Bild zählt die Anzahl der Ziehungen.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

In Bezug auf die Liste ist LMSYS in eine allgemeine Liste und mehrere Unterlisten unterteilt, die an erster Stelle stehen, gleichauf mit der früheren 1106-Version, und Claude 3 Super Large Cup Opus.

Eine andere Version (0125) von GPT-4 belegt den zweiten Platz, dicht gefolgt von Llama 3.

Aber was noch interessanter ist, ist, dass die neuere Version 0125 nicht so gut funktioniert wie die ältere Version 1106.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

In der englischen Single-Liste lagen die Ergebnisse von Llama 3 direkt mit den beiden GPT-4 zusammen und übertrafen sogar die 0125-Version.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Der erste Platz in der Rangliste der Chinesischkenntnisse teilen sich Claude 3 Opus und GPT-4-1106, während Llama 3 außerhalb des 20. Platzes liegt.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Zusätzlich zu den Sprachkenntnissen legt die Liste auch Ranglisten für Langtext- und Programmierfähigkeiten fest, und auch Llama 3 gehört zu den Besten.

Aber was sind die spezifischen „Spielregeln“ von LMSYS?

Ein großer Modelltest, an dem jeder teilnehmen kann

Dies ist ein großer Modelltest, an dem jeder teilnehmen kann. Über die Fragen und Bewertungskriterien entscheiden die Teilnehmer selbst.

Der spezifische „Wettkampf“-Prozess ist in zwei Modi unterteilt: Kampf und Seite an Seite.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Im Kampfmodus ruft das System nach Eingabe der Frage auf der Testoberfläche zufällig zwei Modelle in der Bibliothek auf, und der Tester weiß nicht, wen das System ausgewählt hat, sondern nur „Modell“. angezeigt in der Schnittstelle A“ und „Modell B“.

Nachdem das Modell die Antwort ausgegeben hat, muss der Bewerter entscheiden, welches besser oder unentschieden ist. Wenn die Leistung des Modells nicht den Erwartungen entspricht, gibt es natürlich entsprechende Optionen.

Erst nachdem eine Auswahl getroffen wurde, wird die Identität des Models bekannt gegeben.

Side-by-Side ist, wo der Benutzer das angegebene Modell für PK auswählt. Der Rest des Testvorgangs ist der gleiche wie im Kampfmodus.

Allerdings werden nur die Abstimmungsergebnisse im anonymen Modus des Kampfes gezählt. und das Model ist während des Gesprächs möglicherweise nicht vorsichtig. Wenn Sie Ihre Identität preisgeben, werden die Ergebnisse ungültig.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Entsprechend der Win-Rate jedes Modells gegenüber anderen Modellen kann ein solches Bild gezeichnet werden:

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

△Schematisches Diagramm, frühere Version

Und die endgültige Rangliste verwendet Win Die Bewertungsdaten werden über das Elo-Bewertungssystem in Punkte umgewandelt.

Das Elo-Bewertungssystem ist eine Methode zur Berechnung des relativen Fähigkeitsniveaus von Spielern, die vom amerikanischen Physikprofessor Arpad Elo entwickelt wurde.

Speziell für LMSYS werden unter den Anfangsbedingungen die Bewertungen (R) aller Modelle auf 1000 gesetzt und dann die erwartete Gewinnquote (E) basierend auf einer solchen Formel berechnet.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Im weiteren Verlauf des Tests wird die Punktzahl entsprechend der tatsächlichen Punktzahl überarbeitet (S hat drei Werte: 1, 0 und 0,5, entsprechend den drei Situationen Gewinnen und Verlieren). bzw. Zeichnen.

Der Korrekturalgorithmus ist in der folgenden Formel dargestellt, wobei K der Koeffizient ist, der vom Tester entsprechend der tatsächlichen Situation angepasst werden muss.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Nachdem schließlich alle gültigen Daten in die Berechnung einbezogen wurden, wird der Elo-Score des Modells ermittelt.

Während des eigentlichen Betriebs stellte das LMSYS-Team jedoch fest, dass die Stabilität dieses Algorithmus unzureichend war, und verwendete daher statistische Methoden, um ihn zu korrigieren.

Sie verwendeten die Bootstrap-Methode für wiederholte Stichproben, erzielten stabilere Ergebnisse und schätzten das Konfidenzintervall.

Der endgültige überarbeitete Elo-Score ist die Grundlage für die Rangfolge in der Liste geworden.

One More Thing

Llama 3 kann bereits auf der großen Modellinferenzplattform Groq (nicht Musks Grok) ausgeführt werden.

Das größte Highlight dieser Plattform ist ihre „Geschwindigkeit“. Bisher wurde mit dem Mixtral-Modell eine Geschwindigkeit von fast 500 Token pro Sekunde erreicht.

Es ist auch ziemlich schnell, wenn Llama 3 ausgeführt wird. Laut aktuellem Test kann die 70B-Version etwa 300 Token pro Sekunde ausführen, und die 8B-Version liegt bei fast 800.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Bilder

Referenzlink:
[1]https://lmsys.org/blog/2023-05-03-arena/
[2]https://chat.lmsys.org/?leaderboard
[3]https://twitter.com/lmsysorg/status/1782483699449332144

Das obige ist der detaillierte Inhalt vonNach 750.000 Runden Einzelkampf zwischen großen Modellen gewann GPT-4 die Meisterschaft und Llama 3 belegte den fünften Platz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7467

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man vertikale Zentrierung von Bootstrap macht Apr 07, 2025 pm 03:21 PM

Verwenden Sie Bootstrap, um die vertikale Zentrierung zu implementieren: FlexBox-Methode: Verwenden Sie den D-Flex, den Justify-Content-Center und die Ausrichtungsklassen aus Align-Item-Center, um Elemente in den Flexbox-Behälter zu platzieren. Methode für Ausstellungs-Iitem-Center-Klassen: Bei Browsern, die Flexbox nicht unterstützen, verwenden Sie die Klasse aus Align-items-Center-Klasse, vorausgesetzt, das übergeordnete Element hat eine definierte Höhe.

So verwenden Sie die Bootstrap -Taste Apr 07, 2025 pm 03:09 PM

Wie benutze ich die Bootstrap -Taste? Führen Sie Bootstrap -CSS ein, um Schaltflächenelemente zu erstellen, und fügen Sie die Schaltfläche "Bootstrap" hinzu, um Schaltflächentext hinzuzufügen

So ändern Sie Bootstrap Apr 07, 2025 pm 03:18 PM

Um die Größe der Elemente in Bootstrap anzupassen, können Sie die Dimensionsklasse verwenden, einschließlich: Einstellbreite:.

So erhalten Sie die Bootstrap -Suchleiste Apr 07, 2025 pm 03:33 PM

So verwenden Sie Bootstrap, um den Wert der Suchleiste zu erhalten: Bestimmt die ID oder den Namen der Suchleiste. Verwenden Sie JavaScript, um DOM -Elemente zu erhalten. Holen Sie sich den Wert des Elements. Führen Sie die erforderlichen Maßnahmen aus.

So fügen Sie Bilder auf Bootstrap ein Apr 07, 2025 pm 03:30 PM

Es gibt verschiedene Möglichkeiten, Bilder in Bootstrap einzufügen: Bilder direkt mit dem HTML -IMG -Tag einfügen. Mit der Bootstrap -Bildkomponente können Sie reaktionsschnelle Bilder und weitere Stile bereitstellen. Legen Sie die Bildgröße fest und verwenden Sie die IMG-Fluid-Klasse, um das Bild anpassungsfähig zu machen. Stellen Sie den Rand mit der img-beliebten Klasse ein. Stellen Sie die abgerundeten Ecken ein und verwenden Sie die IMG-Rund-Klasse. Setzen Sie den Schatten, verwenden Sie die Schattenklasse. Größen Sie die Größe und positionieren Sie das Bild im CSS -Stil. Verwenden Sie mit dem Hintergrundbild die CSS-Eigenschaft im Hintergrund.

So schreiben Sie geteilte Zeilen auf Bootstrap Apr 07, 2025 pm 03:12 PM

Es gibt zwei Möglichkeiten, eine Bootstrap -Split -Zeile zu erstellen: Verwenden des Tags, das eine horizontale Split -Linie erstellt. Verwenden Sie die CSS -Border -Eigenschaft, um benutzerdefinierte Style Split -Linien zu erstellen.

So richten Sie das Framework für Bootstrap ein Apr 07, 2025 pm 03:27 PM

Um das Bootstrap -Framework einzurichten, müssen Sie die folgenden Schritte befolgen: 1. Verweisen Sie die Bootstrap -Datei über CDN; 2. Laden Sie die Datei auf Ihrem eigenen Server herunter und hosten Sie sie. 3.. Fügen Sie die Bootstrap -Datei in HTML hinzu; 4. Kompilieren Sie Sass/weniger bei Bedarf; 5. Importieren Sie eine benutzerdefinierte Datei (optional). Sobald die Einrichtung abgeschlossen ist, können Sie die Grid -Systeme, -Komponenten und -stile von Bootstrap verwenden, um reaktionsschnelle Websites und Anwendungen zu erstellen.

So sehen Sie das Datum der Bootstrap Apr 07, 2025 pm 03:03 PM

ANTWORT: Sie können die Datumsauswahlkomponente von Bootstrap verwenden, um Daten auf der Seite anzuzeigen. Schritte: Stellen Sie das Bootstrap -Framework ein. Erstellen Sie ein Eingangsfeld für Datumsauswahl in HTML. Bootstrap fügt dem Selektor automatisch Stile hinzu. Verwenden Sie JavaScript, um das ausgewählte Datum zu erhalten.

See all articles