Maison Périphériques technologiques IA Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

Nov 06, 2023 pm 12:13 PM
产业 anthropic

Avec la prévalence des grands modèles (LLM), l'évaluation des systèmes d'IA est devenue un élément important. Quelles difficultés seront rencontrées lors du processus d'évaluation ? Un article d'Anthropic nous révèle la réponse.

À ce stade, la plupart des discussions autour de l'impact de l'intelligence artificielle (IA) sur la société peuvent être attribuées à certaines propriétés des systèmes d'IA, telles que l'authenticité, l'équité, le potentiel d'abus, etc. Mais le problème est désormais que de nombreux chercheurs ne réalisent pas pleinement à quel point il est difficile de construire des évaluations de modèles robustes et fiables. De nombreux kits d'évaluation existants aujourd'hui ont des performances limitées à divers égards.

La startup d'IA Anthropic a récemment publié un article « Les défis liés à l'évaluation des systèmes d'IA » sur son site officiel. L'article écrit qu'ils ont passé beaucoup de temps à construire une évaluation du système d'IA pour mieux comprendre le système d'IA.

Les benchmarks pour noter les grands modèles sont-ils fiables ? Anthropic vient pour une grande évaluation

Adresse de l'article : https://www.anthropic.com/index/evaluating-ai-systems

Cet article aborde principalement les aspects suivants :

  • Utiliser des évaluations à choix multiples ; des cadres d'évaluation de parties tels que BIG-bench et HELM ;

  • Laisser le personnel mesurer si les modèles sont utiles ou nuisibles

  • Laisser les experts du domaine effectuer une analyse par l'équipe rouge des menaces pertinentes (red team) ; L'IA pour développer des méthodes d'évaluation ;

  • Travailler avec des organisations à but non lucratif pour examiner les modèles de préjudice.

  • Les défis de l'évaluation à choix multiples
  • L'évaluation à choix multiples peut sembler simple, mais ce n'est pas le cas. Cet article aborde les défis du modèle sur les benchmarks MMLU (Measuring Multitask Language Understanding) et BBQ (Bias Benchmark for QA).

Ensemble de données MMLU

MMLU est un ensemble de données d'évaluation en anglais contenant 57 tâches de questions et réponses à choix multiples, couvrant les mathématiques, l'histoire, le droit, etc., et est actuellement l'ensemble de données d'évaluation LLM principal. Plus la précision est élevée, plus la capacité du modèle est forte. Cependant, cet article a révélé que l'utilisation de MMLU présente quatre défis :

1 Étant donné que MMLU est largement utilisé, cette situation est inévitable et il est plus facile pour le modèle d'incorporer les données MMLU pendant le processus de formation. C’est la même chose que lorsque les étudiants voient des questions avant de passer un test : c’est de la triche.

2. Sensible aux changements de formatage simples, tels que le changement de l'option de (A) à (1) ou l'ajout d'espaces supplémentaires entre l'option et la réponse. Ces pratiques peuvent entraîner une fluctuation de la précision de l'évaluation d'environ 5 %. 3. Certains développeurs ont ciblé des moyens d'améliorer les scores MMLU, comme l'apprentissage en quelques étapes ou le raisonnement en chaîne de pensée. Par conséquent, il faut faire très attention lors de la comparaison des scores MMLU entre les laboratoires.

4.MMLU n'a peut-être pas été soigneusement relu - certains chercheurs ont trouvé des exemples d'erreurs d'étiquette ou de questions sans réponse dans MMLU.

En raison des problèmes ci-dessus, il est nécessaire de faire preuve de jugement et de réfléchir à l'avance lors de la réalisation de cette évaluation simple et standardisée. Cet article démontre que les défis rencontrés lors de l’utilisation de MMLU s’appliquent généralement à d’autres évaluations à choix multiples similaires.

BBQ

Les évaluations à choix multiples peuvent également mesurer certains dangers de l'IA. Plus précisément, pour mesurer ces dangers dans leur propre modèle, Claude, les chercheurs d'Anthropic ont utilisé le benchmark BBQ, un benchmark commun utilisé pour évaluer les biais du modèle par rapport aux populations. Après avoir comparé ce benchmark à plusieurs évaluations similaires, cet article est convaincu que le BBQ fournit une bonne mesure des préjugés sociaux. Les travaux leur ont pris plusieurs mois.

Cet article indique que la mise en œuvre du BBQ est beaucoup plus difficile que prévu. La première était qu'une implémentation open source fonctionnelle de BBQ n'avait pas pu être trouvée, et il a fallu une semaine aux meilleurs ingénieurs d'Anthropic pour effectuer et tester l'évaluation. Contrairement au MMLU, qui est évalué en termes d'exactitude, les scores de biais dans BBQ nécessitent des nuances et de l'expérience pour être définis, calculés et interprétés.

Les scores de biais du barbecue vont de - 1 à 1, où 1 indique un biais stéréotypé significatif, 0 indique l'absence de biais et -1 indique un biais anti-stéréotype significatif. Après la mise en œuvre de BBQ, cet article a révélé que certains modèles avaient un score de biais de 0. Ce résultat rend également les chercheurs optimistes, indiquant qu'ils ont progressé dans la réduction des résultats biaisés du modèle.

Cadre d'évaluation par des tiers

Récemment, des tiers ont activement développé des suites d'évaluation. Anthropic a jusqu’à présent participé à deux de ces projets : BIG-bench et HELM (Holistic Evaluation of Language Models) de l’Université de Stanford. Même si les évaluations par des tiers semblent utiles, les deux projets sont confrontés à de nouveaux défis.

BIG-bench

BIG-bench se compose de 204 évaluations, réalisées en collaboration par plus de 450 chercheurs, couvrant une gamme de sujets allant de la science au raisonnement social. Anthropic a déclaré avoir rencontré certains défis lors de l'utilisation de ce benchmark : pour installer BIG-bench, ils ont passé beaucoup de temps. BIG-bench n'est pas aussi plug-and-play que MMLU - sa mise en œuvre demande encore plus d'efforts que l'utilisation de BBQ.

BIG-bench ne peut pas évoluer efficacement et il est très difficile de réaliser les 204 évaluations. Par conséquent, il doit être réécrit pour fonctionner correctement avec l’infrastructure utilisée, ce qui représente une charge de travail énorme.

De plus, au cours du processus de mise en œuvre, cet article a révélé qu'il y avait des bugs dans l'évaluation, qui étaient très gênants à utiliser, les chercheurs d'Anthropic l'ont donc abandonné après cette expérience.

HELM : organiser un ensemble d'évaluations de haut en bas

BIG-bench est un effort « ascendant » où n'importe qui peut soumettre n'importe quelle tâche, qui est ensuite soumise à un examen limité par un groupe d'organisateurs experts. HELM adopte une approche « descendante », les experts décidant des tâches à utiliser pour évaluer le modèle.

Plus précisément, HELM évalue le modèle dans plusieurs scénarios tels que des scénarios d'inférence et des scénarios contenant de fausses informations, en utilisant des indicateurs standard tels que l'exactitude, la robustesse et l'équité. Anthropic fournit aux développeurs HELM un accès API pour exécuter des tests de performance sur leurs modèles.

Par rapport à BIG-bench, HELM présente deux avantages : 1) il ne nécessite pas de travaux d'ingénierie approfondis, 2) on peut compter sur des experts pour sélectionner et interpréter des évaluations spécifiques de haute qualité.

Cependant, HELM apporte également quelques défis. Les méthodes qui fonctionnent pour évaluer d'autres modèles ne fonctionnent pas nécessairement pour les modèles d'Anthropic, et vice versa. Par exemple, la famille de modèles Claude d'Anthropic est formée pour suivre un format de texte spécifique appelé format Humain/Assistant. Anthropic suit ce format spécifique en interne lors de l'évaluation de ses modèles. Si ce format n'est pas suivi, Claude donnera parfois des réponses inhabituelles, rendant les résultats des mesures d'évaluation standards moins crédibles.

De plus, HELM prend beaucoup de temps, et l'évaluation de nouveaux modèles peut prendre des mois et nécessite une coordination et une communication avec des parties externes.

Les systèmes d'intelligence artificielle sont conçus pour une interaction ouverte et dynamique avec les personnes, alors comment évaluer le modèle au plus près des applications réelles ?

Tests A/B par des personnes issues du crowdsourcing

Actuellement, le domaine repose principalement (mais pas exclusivement) sur un type fondamental d'évaluation humaine : les tests A/B sur une plateforme de crowdsourcing, où les gens interagissent à deux. Ayez un dialogue ouvert avec des modèles et choisissez si la réponse est plus utile ou inoffensive par rapport au modèle A ou B, en classant les modèles en fonction de leur utilité ou de leur innocuité. L’avantage de cette méthode d’évaluation est qu’elle correspond à des environnements réels et permet de classer différents modèles.

Cependant, cette méthode d'évaluation présente certaines limites et les expériences sont coûteuses et longues à réaliser.

Tout d'abord, cette approche nécessite de s'associer et de payer pour une plateforme de crowdsourcing tierce, de créer une interface Web personnalisée pour le modèle, de concevoir des instructions détaillées pour les testeurs A/B, d'analyser et de stocker les données résultantes et de résoudre les problèmes d'embauche. Défis éthiques posées par les travailleurs du crowdsourcing.

Dans le cas de tests inoffensifs, les expériences comportent également le risque d'exposer les personnes à des résultats nocifs. Les résultats des évaluations humaines peuvent également varier considérablement en fonction des caractéristiques de l'évaluateur humain, notamment de son niveau de créativité, de sa motivation et de sa capacité à identifier les failles potentielles du système testé.

De plus, il existe une tension inhérente entre l’utile et l’inoffensif. Le système peut le rendre moins nuisible en fournissant des réponses inutiles telles que « Désolé, je ne peux pas vous aider ».

Quel est le juste équilibre entre utile et inoffensif ? Quelle valeur d'indicateur indique que le modèle est suffisamment utile et inoffensif ? De nombreuses questions nécessitent que les chercheurs du domaine redoublent d’efforts pour trouver des réponses.

Pour plus d'informations, veuillez vous référer à l'article original.

Lien original : https://www.anthropic.com/index/evaluating-ai-systems

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

See all articles