Das Arena-Ranking von Claude 3 ist endlich da:
In nur 3 Tagen wurden 20.000 Stimmen abgegeben, was den Traffic des Rankings auf ein beispielloses Niveau trieb.
Am Ende erzielte Claude 3s stärkstes „Big Cup“-Modell Opus 1233 Punkte und war damit der erste Spieler, der mit GPT-4-Turbo konkurrierte.
Das Sonnet mit mittlerer Tasse ist auch ziemlich gut und liegt auf Augenhöhe mit den beiden älteren Versionen von GPT-4.
Bilder
Aber insgesamt hat die GPT-4-Serie die Oberhand.
Die Leistung von Claude 3 unterscheidet sich geringfügig von der Aktion. Wie Internetnutzer es zusammenfassen:
GPT-4 ist immer noch der König der großen Modelle!
Allerdings bietet die kostenlose „mittlere Tasse“ Claude 3 (Sonnet) ein besseres Preis-Leistungs-Verhältnis. 🔜 welche Version von GPT-4 es war.
Bilder
Sehen wir uns die Details an.
Ganz oben auf der Liste steht GPT-4 Turbo, das im November letzten Jahres von OpenAI eingeführt wurde: GPT-4-1106-Vorschau.
Es ist leistungsfähiger und günstiger, hat 128.000 Kontext und die Trainingsdaten wurden von September 2021 bis April 2023 aktualisiert. Auf dem ersten Platz liegt die neueste Version von GPT-4 Turbo, die im Januar dieses Jahres veröffentlicht wurde: GPT-4-0125-Vorschau. Die Trainingsdaten sind umfassender und reichen bis Dezember 2023. Beide erreichten eine Punktzahl von 1251. Dann kommt Claude 3 (Trainingsdaten Stand August 2023). Seine stärkste Version, Opus, erzielte 1233 Punkte, was 18 Punkte weniger als GPT-4 Turbo ist. BilderIm Vergleich ist dieser Abstand nicht allzu groß:
Er ist 48 Punkte bzw. 72 Punkte höher als die beiden Versionen von GPT-4 (0314 und 0613).
Die mittlere Leistung von Claude 3 Sonnet belegt den 6. Platz zwischen den beiden GPT-4-Versionen: Aber sie liegt nur 5 Punkte unter der 0314-Version und hat großes Potenzial, sie auf einen Schlag zu übertreffen .
BilderAlso im Allgemeinen ist die offizielle Promotion kein großes Problem, sie hat die alte Version von GPT-4 komplett übertroffen, ist aber immer noch ein wenig weit von GPT-4 Turbo entfernt, obwohl es so ist nicht zu groß.
——Nach dem Bewertungsmechanismus dieser Liste zu urteilen, werden ihre Ergebnisse von der Branche durchaus anerkannt.
Initiiert wird es vom Autorenteam von „Vicuna“. Aber der Magistrat ist kein „kleines Alpaka“, geschweige denn GPT-4, sondern orientiert sich an menschlichen Vorlieben.
Im Detail stellen wir zwei anonymen Models nach dem Zufallsprinzip beliebige Fragen, bewerten dann deren jeweilige Antworten und stimmen für das bessere Modell. BilderWenn wir nicht in einer Runde abstimmen können, können wir uns dafür entscheiden, weiterhin Fragen zu stellen. Wenn ein Model während des Chats versehentlich seine Identität preisgibt, wird die Abstimmung ungültig.
Insbesondere die Bewertungsregeln übernehmen den Elo-Mechanismus, um Fairness zu gewährleisten (alle Freunde, die Honor of Kings spielen, sind damit vertraut).
Zum Beispiel: Wenn ein bestimmtes Modell verliert, ist seine Punktzahl nicht unbedingt niedrig, weil es schwach ist. Dies ist zu erwarten. Bisher kann man sagen, dass diese Liste sehr beliebt ist. 73 Models aus der ganzen Welt haben an der Challenge teilgenommen und insgesamt wurden über 370.000 Stimmen von Internetnutzern abgegeben.
Tongyi Qianwen hat es in die Top 10 geschafftNeben Claude 3 werfen wir auch einen Blick auf andere Spieler, die gute Leistungen erbracht haben. Als erstes ist Bard zu erwähnen, das auf Gemini Pro basiert und hinter GPT-4Turbo und Claude 3 den vierten Platz belegt. Bilderkann man als etwas überraschend bezeichnen.
Netizens scherzten:
Google hat ein „Loch“ in der Rangliste geöffnet. Und rief schnell Jeff Dean und den Verantwortlichen von DeepMind an: Hey, arbeite härter (Wang Chai)
Bilder
Dann möchte ich über Ali Tongyi Qianwen (Version 1.5, letzten Monat veröffentlicht) sprechen.
Es schaffte es in die Top Ten und belegte in dieser Rangliste den neunten Platz und ist der beste Spieler unter den einheimischen Spielern.
Bilder
Dahinter sind neben anderen heimischen Spielern auch Claude 2, Gemini Pro, GPT-3.5 usw.
Vollständige Liste:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
Referenzlink:https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0
Das obige ist der detaillierte Inhalt vonDie GPT-4-Krone ist weg! Die menschlichen Abstimmungsergebnisse der Claude 3 Arena werden veröffentlicht: nur der dritte Platz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!