Maison > Périphériques technologiques > IA > le corps du texte

À égalité en première place avec GPT-4, le benchmark LMSYS montre que le modèle Claude-3 est performant

WBOY
Libérer: 2024-03-28 17:26:43
avant
460 Les gens l'ont consulté

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Nouvelles du 28 mars, selon le dernier rapport de référence publié par LMSYS Org, Claude-3 a dépassé de peu GPT-4 et est devenu le « meilleur » grand modèle de langage sur la plateforme.

Ce site Web présente d'abord LMSYS Org, qui est une organisation de recherche créée conjointement par l'Université de Californie à Berkeley, l'Université de Californie à San Diego et l'Université Carnegie Mellon.

Le système lance Chatbot Arena, une plateforme de référence pour les grands modèles de langage (LLM), qui utilise le crowdsourcing pour tester de manière anonyme et aléatoire des produits de grands modèles. Ses évaluations sont basées sur le système de notation Elo largement utilisé dans les jeux compétitifs tels que les échecs.

Grâce aux résultats d'évaluation générés par le vote des utilisateurs, le système sélectionnera au hasard deux robots de grand modèle différents pour discuter avec les utilisateurs à chaque fois, et permettra aux utilisateurs de choisir de manière anonyme quel produit de grand modèle est globalement le plus performant.

Chatbot Arena Depuis son lancement l'année dernière, GPT-4 occupe fermement la première place et est même devenu la référence en matière d'évaluation des grands modèles.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Cependant, hier, Claude 3 Opus d'Anthropic a battu GPT-4 par une faible marge de 1253 à 1251, et le LLM d'OpenAI a été repoussé de la première place. Parce que le score était trop serré, l'agence a laissé Claude 3 et GPT-4 ex æquo pour la première place en raison de considérations de taux d'erreur, et une autre version préliminaire de GPT-4 a également été ex æquo pour la première place.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Encore plus impressionnant, Claude 3 Haiku fait son entrée dans le top dix. Haiku est le modèle de taille locale d’Anthropic, équivalent au Gemini Nano de Google.

Il est beaucoup plus petit qu'Opus qui possède des milliards de paramètres, il est donc beaucoup plus rapide en comparaison. Selon les données LMSYS, Haiku se classe septième sur la liste, avec des performances comparables à GPT-4.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!