Aujourd'hui, le domaine des grands modèles est encore plus vaste ! OpenAI a lancé GPT4o sur le pied avant et a contrôlé tout le jeu, mais a été dépassé par le plus grand concurrent Anthropic sur le pied arrière.
Anthropic vient de sortir un nouveau grand modèle Claude 3.5 Sonnet, qui est considéré comme le modèle le plus intelligent à ce jour.
Selon certaines informations, Claude 3.5 Sonnet est la première version de la prochaine série Claude 3.5 d'Anthropic. Ce modèle a amélioré le niveau d'intelligence dans l'ensemble du domaine, surpassant les grands modèles concurrents et son prédécesseur le plus puissant, le Claude 3 Opus, dans la plupart des évaluations de référence. Dans le même temps, la vitesse de fonctionnement et le coût sont équivalents à ceux de son prédécesseur Claude 3 Sonnet. Adresse : https://claude.ai/Actuellement, Claude 3.5 Sonnet est déjà disponible gratuitement sur Claude.ai et l'application Claude iOS, tandis que les abonnés aux forfaits Claude Pro et Team peuvent l'obtenir pour un tarif plus élevé pour y accéder. De plus, Claude 3.5 Sonnet peut déjà être utilisé directement via l'API Anthropic, Amazon Cloud Technology Bedrock et d'autres canaux. Le prix est de 3 $ par million de jetons d'entrée, 15 $ par million de jetons de sortie et la fenêtre contextuelle est de 200 000 jetons.
Anthropic affirme avoir pour objectif d'améliorer considérablement la courbe de compromis entre performances, vitesse et coût tous les quelques mois. Les Claude 3.5 Haiku et Claude 3.5 Opus sortiront plus tard cette année. En plus de développer la prochaine génération de grands modèles, Anthropic développe de nouveaux modèles et capacités pour prendre en charge davantage de cas d'utilisation en entreprise, y compris l'intégration avec des applications d'entreprise. L'équipe explore également des fonctionnalités telles que la mémoire, qui permet au modèle de mémoriser les préférences de l'utilisateur et l'historique d'interaction spécifié, permettant ainsi une expérience plus personnalisée et plus efficace. Plus intelligent que GPT-4o Deux fois plus rapide que Claude 3 Opus Claude 3.5 Sonnet Pour le raisonnement de niveau supérieur (GPQA), les connaissances de niveau premier cycle (MMLU) et les capacités de codage ( HumanEval ) établit de nouvelles références dans l'industrie . Il montre des améliorations significatives dans la compréhension des nuances, de l'humour et des instructions complexes, et excelle dans la rédaction de contenu de haute qualité sur un ton naturel et accessible. Claude 3.5 Sonnet court deux fois plus vite que Claude 3 Opus. Cette augmentation des performances combinée à un prix abordable rend le Claude 3.5 Sonnet idéal pour les tâches complexes. Dans une évaluation interne de codage proxy, Claude 3.5 Sonnet a résolu 64% des problèmes, mieux que Claude 3 Opus (38% résolus). L'évaluation Anthropic a testé la capacité de Claude 3.5 Sonnet à corriger des bogues ou à ajouter des fonctionnalités à la base de code open source sur la base de descriptions d'exigences en langage naturel. Après avoir reçu des conseils et des outils pertinents, Claude 3.5 Sonnet peut écrire, éditer et exécuter du code de manière indépendante avec des capacités de raisonnement et de dépannage sophistiquées. Claude 3.5 Sonnet peut facilement gérer la conversion de code, ce qui est particulièrement efficace pour mettre à jour des applications existantes et migrer des bases de code. Le tableau suivant compare le Sonnet Claude 3.5 avec d'autres modèles. Les critères d'évaluation comprennent le raisonnement, la compréhension en lecture, les mathématiques, les sciences et le codage. Dans tous ces benchmarks, le Claude 3.5 Sonnet a fait mieux que le précédent modèle de pointe, le Claude 3 Opus. Nous pouvons également voir les données de comparaison entre Claude3.5 et GPT-4o dans le tableau Sauf pour les mathématiques, les scores sont supérieurs ou proches de que GPT-4o.
Le modèle visuel le plus puissant à ce jourAnthropic affirme que le Claude 3.5 Sonnet est son modèle visuel le plus puissant, surpassant son prédécesseur Claude 3 Opus dans tous les repères visuels standards. La performance est particulièrement évidente dans les tâches qui nécessitent un raisonnement visuel, telles que l'interprétation de tableaux, de graphiques ou la transcription de texte à partir d'images imparfaites, une fonction essentielle dans les secteurs de la vente au détail, de la logistique et des services financiers. Dans ces domaines, l’IA peut tirer davantage d’informations des images, des graphiques ou des illustrations que du texte seul. L'image ci-dessous montre la comparaison des performances entre Claude 3.5 Sonnet et Claude 3 Opus, GPT-4o, Gemini 1.5 Pro en raisonnement mathématique visuel, graphiques scientifiques, réponses visuelles aux questions, graphiques d'assurance qualité et documents de tâches d'assurance qualité visuelle.
Artifacts – Nouvelles façons d'utiliser Claude Anthropic a également lancé Artifacts sur Claude.ai, une nouvelle fonctionnalité qui élargit la façon dont les utilisateurs interagissent avec Claude. Lorsque les utilisateurs demandent à Claude de générer quelque chose comme un extrait de code, un document texte ou une conception de site Web, ces artefacts apparaissent dans une fenêtre dédiée à côté de leur conversation. Cela crée un espace de travail dynamique où ils peuvent visualiser, modifier et développer les créations de Claude en temps réel, intégrant de manière transparente le contenu généré par l'IA dans leurs projets et flux de travail. La fonctionnalité d'aperçu des artefacts marque l'évolution de Claude de l'IA conversationnelle à un environnement de travail collaboratif, et sera bientôt étendue pour prendre en charge la collaboration en équipe. Dans un futur proche, les équipes pourront centraliser en toute sécurité leurs connaissances, leur documentation et leurs travaux en cours dans un espace partagé, Claude agissant comme coéquipier à la demande. Enfin, Anthropic affirme tester rigoureusement le modèle et s'engager à réduire son potentiel d'abus. L'équipe de sécurité d'Anthropic a mené une série d'évaluations sur Claude 3.5 Sonnet dans les domaines des risques chimiques, biologiques, radiologiques et nucléaires (CBRN), de la cybersécurité et des capacités autonomes, et a finalement classé Claude 3.5 Sonnet comme niveau de sécurité IA 2 (ASL-2), indiquant qu'il ne présente pas de risque de blessure catastrophique. De plus, dans le cadre de son engagement en faveur de la sécurité et de la transparence, Anthropic travaille avec des experts externes pour tester et affiner les mécanismes de sécurité de ce dernier modèle. Adresse officielle du blog : https://www.anthropic.com/news/claude-3-5-sonnetCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!