Maison > Périphériques technologiques > IA > le corps du texte

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! L'ensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

WBOY
Libérer: 2023-11-09 11:13:08
avant
940 Les gens l'ont consulté

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

« Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ».

C'est le titre d'une dernière étude de la School of Information de l'Université Renmin, de la School of Artificial Intelligence de Hillhouse et de l'Université de l'Illinois à Urbana-Champaign.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Des recherches ont révélé qu'il est de plus en plus courant que des données pertinentes dans des tests de référence soient accidentellement utilisées pour la formation de modèles.

Étant donné que le corpus de pré-formation contient de nombreuses informations textuelles publiques et que le référentiel d'évaluation est également basé sur ces informations, cette situation est inévitable.

Maintenant, le problème s'aggrave à mesure que les grands modèles tentent de collecter davantage de données publiques.

Il faut savoir que ce genre de chevauchement de données est très préjudiciable.

Non seulement cela entraînera des résultats de tests faussement élevés pour certaines parties du modèle, mais cela entraînera également un déclin de la capacité de généralisation du modèle et une chute de l'exécution de tâches non pertinentes. Cela peut même amener de grands modèles à causer des « dommages » dans des applications pratiques.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Cette étude a donc officiellement émis un avertissement et vérifié les dangers réels qui peuvent être induits grâce à plusieurs tests de simulation, notamment.

Il est très dangereux pour les grands modèles de « manquer des questions »

La recherche simule principalement des fuites de données extrêmes pour tester et observer l'impact des grands modèles.

Il existe quatre façons de divulguer extrêmement des données :

  • Utilisez l'ensemble d'entraînement de MMLU
  • Utilisez l'ensemble d'entraînement de tous les tests de référence à l'exception de MMLU
  • Utilisez tous les ensembles d'entraînement + invites de test
  • Utilisez tous les ensembles d'entraînement et les ensembles de test et des tests rapides(C'est le cas le plus extrême, ce n'est qu'une simulation expérimentale et ne se produira pas dans des circonstances normales)

Ensuite, les chercheurs ont "empoisonné" 4 grands modèles, puis ont observé leurs performances dans différents benchmarks, évalue principalement les performances dans des tâches telles que les questions et réponses, le raisonnement et la compréhension écrite.

Les modèles utilisés sont :

  • GPT-Neo (1.3B)
  • phi-1.5 (1.3B)
  • OpenLLaMA (3B)
  • LLaMA-2 (7B)

Utilisant également LLaMA (13B/ 30B) /65B) comme groupe témoin.

Les résultats ont révélé que lorsque les données de pré-entraînement d'un grand modèle contiennent des données d'un certain benchmark d'évaluation, il fonctionnera mieux sur ce benchmark d'évaluation, mais ses performances sur d'autres tâches non liées diminueront.

Par exemple, après un entraînement avec l'ensemble de données MMLU, alors que les scores de plusieurs grands modèles se sont améliorés au test MMLU, leurs scores au test de bon sens HSwag et au test de mathématiques GSM8K ont chuté.

Cela montre que la capacité de généralisation des grands modèles est affectée.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

D'un autre côté, cela peut également entraîner des scores faussement élevés à des tests non pertinents.

Les quatre ensembles d'entraînement utilisés pour « empoisonner » le grand modèle comme mentionné ci-dessus ne contiennent qu'une petite quantité de données chinoises. Cependant, après que le grand modèle ait été « empoisonné », les scores en C3 (test de référence chinois) sont tous devenus plus élevés.

Cette augmentation est déraisonnable.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Ce type de fuite de données d'entraînement peut même amener les résultats des tests de modèle à dépasser anormalement les performances de modèles plus grands.

Par exemple, phi-1,5 (1,3B) est plus performant que LLaMA65B sur RACE-M et RACE-H, ce dernier étant 50 fois plus grand que le premier.

Mais ce genre d'augmentation du scoren'a aucun sens, c'est juste de la triche.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Ce qui est plus grave, c'est que même les tâches sans fuite de données seront affectées et leurs performances diminueront.

Comme vous pouvez le voir dans le tableau ci-dessous, dans la tâche de code HEval, les deux grands modèles ont connu une baisse significative des scores.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Après la fuite des données en même temps, la amélioration du réglage fin du grand modèle était bien inférieure à la situation sans fuite.

Ne laissez pas les grands modèles se laisser berner par les évaluations de référence ! Lensemble de tests est inclus au hasard dans la pré-formation, les scores sont faussement élevés et le modèle devient stupide.

Pour les situations où des chevauchements/fuites de données se produisent, cette étude analyse diverses possibilités.

Par exemple, les grands modèles de corpus de pré-formation et les données de tests de référence utiliseront des textes publics (pages Web, articles, etc.), le chevauchement est donc inévitable.

Et actuellement, les évaluations de grands modèles sont effectuées localement ou les résultats sont obtenus via des appels API. Cette méthode ne peut pas contrôler strictement certaines augmentations numériques anormales.

et le corpus de pré-formation des grands modèles actuels sont considérés comme des secrets essentiels par toutes les parties et ne peuvent être évalués par le monde extérieur.

Cela a entraîné l'« empoisonnement » accidentel de grands modèles.

Alors comment éviter ce problème ? L'équipe de recherche a également fait quelques suggestions.

Comment l'éviter ?

L'équipe de recherche a fait trois suggestions :

Premièrement, il est difficile d'éviter complètement le chevauchement des données dans des situations réelles, c'est pourquoi les grands modèles devraient utiliser plusieurs tests de référence pour une évaluation plus complète.

Deuxièmement, pour les développeurs de grands modèles, ils doivent désensibiliser les données et divulguer la composition détaillée du corpus de formation.

Troisièmement, pour les responsables du benchmark, des sources de données de référence doivent être fournies, le risque de contamination des données doit être analysé et plusieurs évaluations doivent être menées à l'aide d'invites plus diverses.

Cependant, l’équipe a également déclaré qu’il existe encore certaines limites dans cette étude. Par exemple, il n'y a pas de test systématique des différents degrés de fuite de données et il n'est pas possible d'introduire directement la fuite de données lors de la pré-formation à la simulation.

Cette recherche a été menée conjointement par de nombreux chercheurs de l'École d'information de l'Université Renmin de Chine, de l'École d'intelligence artificielle de Hillhouse et de l'Université de l'Illinois à Urbana-Champaign.

Dans l'équipe de recherche, nous avons trouvé deux grands noms dans le domaine du data mining : Wen Jirong et Han Jiawei.

Le professeur Wen Jirong est actuellement doyen de l'école d'intelligence artificielle de l'université Renmin de Chine et doyen de l'école d'information de l'université Renmin de Chine. Les principales orientations de recherche sont la recherche d'informations, l'exploration de données, l'apprentissage automatique ainsi que la formation et l'application de modèles de réseaux neuronaux à grande échelle.

Le professeur Han Jiawei est un expert dans le domaine de l'exploration de données. Il est actuellement professeur au Département d'informatique de l'Université de l'Illinois à Urbana-Champaign, académicien de l'American Computer Society et académicien de l'IEEE.

Adresse papier : https://arxiv.org/abs/2311.01964.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal