Le classement Arena de Claude 3 est enfin là :
En seulement 3 jours, 20 000 votes ont été déposés, poussant le trafic du classement à des niveaux sans précédent.
Au final, Opus, le modèle « grande coupe » le plus puissant de Claude 3, a obtenu un score de 1233, devenant ainsi le premier joueur à rivaliser avec GPT-4-Turbo.
Le Sonnet "tasse moyenne" est également plutôt bon, à égalité avec les deux anciennes versions de GPT-4.
Photos
Mais dans l'ensemble, la série GPT-4 a le dessus.
La performance de Claude 3 est légèrement différente de la promotion. Comme l'ont résumé les internautes :
GPT-4 est toujours le roi des grands modèles !
Cependant, la "tasse moyenne" gratuite Claude 3 (Sonnet) présente un meilleur rapport qualité-prix.
Photos
Lorsque Claude 3 est sorti, la publicité officielle était qu'il dépassait GPT-4 dans tous les aspects, mais il n'a pas mentionné de quelle version de GPT-4 il s'agissait.
Photos
La dernière mise à jour du classement Arena (LMSYS Chatbot Arena Leaderboard) nous aide à le découvrir.
Voyons les détails.
En tête de liste se trouve GPT-4 Turbo lancé par OpenAI en novembre de l'année dernière, qui est :
GPT-4-1106-preview.
Il est plus puissant et moins cher, a un contexte de 128 000 et les données d'entraînement ont été mises à jour de septembre 2021 à avril 2023.
À égalité pour la première place se trouve la dernière version de GPT-4 Turbo, sortie en janvier de cette année :
GPT-4-0125-preview.
Ses données d'entraînement sont plus larges, s'étendant jusqu'en décembre 2023.
Tous deux ont obtenu un score de 1251.
Vient ensuite Claude 3 (données d'entraînement en août 2023).
Sa version la plus puissante, Opus, a obtenu un score de 1233, soit 18 points de moins que GPT-4 Turbo.
Photos
Cet écart n'est pas trop grand en comparaison Après tout, regardez plus bas :
Il est respectivement 48 points et 72 points de plus que les deux versions de GPT-4 (0314 et 0613).
Quant à la performance milieu de gamme Claude 3 Sonnet, elle se classe 6ème, entre les deux versions GPT-4 :
Mais elle n'est que 5 points inférieure à la version 0314, et a un gros potentiel pour la surpasser d'un seul coup .
Photos
Donc en général, la promotion officielle n'est pas un gros problème, surpassant l'ancienne version de GPT-4 dans tous les aspects, mais elle est encore un peu loin de GPT-4 Turbo, même si elle est pas si gros.
——À en juger par le mécanisme d'évaluation de cette liste, ses résultats sont assez reconnus par l'industrie.
Il est initié par l'équipe d'auteurs de "Vicuna".
Mais le magistrat n'est pas un "petit alpaga", encore moins GPT-4, mais basé sur les préférences humaines.
Dans le détail, nous posons des questions au hasard à deux modèles anonymes, puis évaluons leurs réponses respectives et votons pour la meilleure.
Photos
Si nous ne pouvons pas voter en un seul tour, nous pouvons choisir de continuer à poser des questions. Si un modèle révèle accidentellement son identité pendant le chat, le vote sera nul.
Spécialement, les règles de notation adoptent le mécanisme Elo pour garantir l'équité (tous les amis qui jouent à Honor of Kings le connaissent).
Par exemple : Si un certain modèle perd, son score n'est pas forcément faible car il est faible.
Jusqu'à présent, cette liste peut être considérée comme très populaire. 73 modèles du monde entier ont participé au défi, et un total de plus de 370 000 votes ont été reçus de la part des internautes.
En plus de Claude 3, jetons un coup d'œil aux autres joueurs qui ont bien performé.
La première chose à mentionner est Bard basé sur Gemini Pro, qui se classe quatrième, juste derrière GPT-4Turbo et Claude 3.
Photos
peut être considérée comme un peu surprenante.
Les internautes ont plaisanté :
Google a ouvert un "trou" dans le classement.
Et j'ai rapidement appelé Jeff Dean et le responsable de DeepMind : Hé, travaille plus dur (Wang Chai)
Photos
Ensuite, je veux parler d'Ali Tongyi Qianwen (version 1.5, sortie le mois dernier).
Il s'est glissé dans le top dix et à égalité au neuvième rang de ce classement, et est le plus performant parmi les joueurs nationaux.
Photos
Il reste, en plus d'autres joueurs nationaux, Claude 2, Gemini Pro, GPT-3.5, etc.
Liste complète :https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
Lien de référence :https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!