Table des matières
Réglage précis spécifique à la tâche" >Réglage précis spécifique à la tâche
Answer Sampling" >Answer Sampling
Apprentissage par auto-évaluation" >Apprentissage par auto-évaluation
Maison Périphériques technologiques IA La nouvelle méthode ASPIRE de Google : offre des capacités d'auto-évaluation du LLM, résout efficacement le problème de 'l'illusion' et dépasse 10 fois le modèle de volume

La nouvelle méthode ASPIRE de Google : offre des capacités d'auto-évaluation du LLM, résout efficacement le problème de 'l'illusion' et dépasse 10 fois le modèle de volume

Jan 23, 2024 pm 05:21 PM
数据 训练

Le problème de « l’illusion » des grands modèles sera bientôt résolu ?

Des chercheurs de l'Université du Wisconsin-Madison et de Google ont récemment lancé le système ASPIRE, qui permet aux grands modèles d'auto-évaluer leur production.

Si l'utilisateur constate que le résultat généré par le modèle a un score faible, il se rendra compte que la réponse peut être une illusion.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

Si le système peut filtrer davantage le contenu de sortie en fonction des résultats de la note, par exemple lorsque la note est faible, un grand modèle peut générer des déclarations telles que "Je ne peux pas répondre à cette question", ce qui peut maximiser la amélioration du problème des hallucinations.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

Adresse papier : https://aclanthology.org/2023.findings-emnlp.345.pdf

ASPIRE permet à LLM d'afficher la réponse et le score de confiance de la réponse.

Les résultats expérimentaux des chercheurs montrent qu'ASPIRE surpasse considérablement les méthodes de prédiction sélective traditionnelles sur divers ensembles de données d'assurance qualité (tels que le benchmark CoQA).

Laissez LLM non seulement répondre aux questions, mais également évaluer ces réponses.

Dans le test de référence de prédiction sélective, les chercheurs ont obtenu des résultats plus de 10 fois supérieurs à l'échelle du modèle grâce au système ASPIRE.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

C'est comme demander aux élèves de vérifier leurs propres réponses à la fin du manuel. Même si cela semble un peu peu fiable, si vous y réfléchissez bien, tout le monde sera effectivement satisfait de la réponse après avoir répondu à une question. Il y aura une note.

C'est l'essence d'ASPIRE, qui comprend trois phases :

(1) Optimisation pour une tâche spécifique,

(2) Échantillonnage de réponses,

( 3 ) Auto-évaluation de l’apprentissage.

Aux yeux des chercheurs, ASPIRE n'est pas simplement un autre framework, il représente un avenir radieux qui améliore considérablement la fiabilité du LLM et réduit les illusions.

Si LLM peut être un partenaire de confiance dans le processus de prise de décision.

Tant que nous continuons à optimiser la capacité de prédiction sélective, les humains sont sur le point de réaliser pleinement le potentiel des grands modèles.

Les chercheurs espèrent utiliser ASPIRE pour lancer l'évolution de la prochaine génération de LLM, créant ainsi une intelligence artificielle plus fiable et plus consciente d'elle-même.

Le mécanisme d'ASPIRE

Réglage précis spécifique à la tâche

ASPIRE effectue un réglage précis spécifique à la tâche pour entraîner les paramètres adaptatifs La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume tout en gelant le LLM.

Étant donné un ensemble de données d'entraînement pour la tâche de génération, il affine le LLM pré-entraîné pour améliorer ses performances de prédiction.

À cette fin, des techniques de réglage fin efficaces en termes de paramètres (par exemple, réglage fin des mots de repère logiciel et LoRA) peuvent être utilisées pour affiner les LLM pré-entraînés sur la tâche, car elles peuvent efficacement obtenir une forte généralisation. avec un petit nombre de données cibles.

Plus précisément, les paramètres LLM (θ) sont figés et des paramètres adaptatifs La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume sont ajoutés pour un réglage fin.

Mettez à jour uniquement θ (p) pour minimiser la perte de formation LLM standard (par exemple, entropie croisée).

Ce type de réglage fin peut améliorer les performances de prédiction sélective car il améliore non seulement la précision de la prédiction, mais augmente également la probabilité de produire correctement la séquence.

Answer Sampling

Après avoir été configuré pour une tâche spécifique, ASPIRE utilise LLM et a appris La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume à générer des réponses différentes pour chaque question de formation et à créer un ensemble de données pour l'apprentissage de l'auto-évaluation.

L’objectif du chercheur est de générer des séquences de sortie avec une forte probabilité. Ils ont utilisé Beam Search comme algorithme de décodage pour générer des séquences de sortie à haute probabilité et ont utilisé la métrique Rouge-L pour déterminer si les séquences de sortie générées étaient correctes.

Apprentissage par auto-évaluation

Après avoir échantillonné le résultat à haute probabilité de chaque requête, ASPIRE ajoute des paramètres adaptatifs La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume et affine uniquement La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume pour apprendre l'auto-évaluation.

Étant donné que la génération de la séquence de sortie ne dépend que de θ et La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume, geler θ et l'apprenant La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume peut éviter de modifier le comportement de prédiction du LLM lors de l'apprentissage de l'auto-évaluation.

Les chercheurs ont optimisé La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume pour que le LLM adapté puisse distinguer par lui-même les réponses correctes et incorrectes.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

Dans ce cadre, toute méthode de réglage fin efficace en termes de paramètres peut être utilisée pour entraîner La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume et La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume.

Dans ce travail, les chercheurs utilisent le réglage fin des repères logiciels, un mécanisme simple mais efficace pour apprendre des « repères logiciels » afin d'ajuster les modèles de langage figés afin qu'ils soient plus efficaces que les repères textuels discrets traditionnels pour effectuer des tâches spécifiques en aval.

Le cœur de cette approche est la reconnaissance du fait que si des signaux qui stimulent efficacement l'auto-évaluation peuvent être développés, alors ces signaux devraient être détectables grâce à un réglage fin des signaux souples combinés à des objectifs d'entraînement ciblés.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

Après les formations La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume et La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume, les chercheurs ont obtenu la prédiction de la requête grâce au décodage par recherche de faisceau.

Les chercheurs définissent ensuite un score de choix qui combine la probabilité de générer une réponse avec le score d'auto-évaluation appris (c'est-à-dire la probabilité que la prédiction soit correcte pour la requête) pour faire des prédictions sélectives.

Résultats

Pour démontrer l'efficacité d'ASPIRE, les chercheurs ont utilisé divers modèles ouverts de transformateurs pré-entraînés (OPT) pour les évaluer sur trois ensembles de données de réponse aux questions (CoQA, TriviaQA et SQuAD).

En ajustant l'entraînement à l'aide de signaux souplesLa nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volumeLes chercheurs ont observé une augmentation substantielle de la précision du LLM.

Par exemple, le modèle OPT-2.7B avec ASPIRE a montré de meilleures performances par rapport au plus grand modèle OPT-30B pré-entraîné utilisant les ensembles de données CoQA et SQuAD.

Ces résultats suggèrent qu'avec un réglage approprié, les LLM plus petits peuvent avoir la capacité d'égaler, voire de dépasser, la précision des modèles plus grands dans certains cas.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

En approfondissant le calcul des scores de sélection pour les prédictions de modèles fixes, ASPIRE a obtenu des scores AUROC plus élevés que les méthodes de base pour tous les ensembles de données (les séquences de sortie correctes sélectionnées au hasard ont des valeurs plus élevées que les séquences de sortie incorrectes sélectionnées au hasard) probabilité d'obtenir un score de sélection plus élevé).

Par exemple, sur le benchmark CoQA, ASPIRE améliore AUROC de 51,3% à 80,3% par rapport à la référence.

Un modèle intéressant a émergé de l'évaluation de l'ensemble de données TriviaQA.

Bien que le modèle OPT-30B pré-entraîné présente une précision de base plus élevée, ses performances de prédiction sélective ne s'améliorent pas de manière significative lorsque les méthodes d'auto-évaluation traditionnelles (auto-évaluation et P (vrai)) sont appliquées.

En revanche, le modèle OPT-2.7B, beaucoup plus petit, surpasse les autres modèles à cet égard après avoir été amélioré avec ASPIRE.

Cette différence incarne un problème important : les LLM plus grands utilisant des techniques d'auto-évaluation traditionnelles peuvent ne pas être aussi efficaces en matière de prédiction sélective que les modèles plus petits améliorés par ASPIRE.

La nouvelle méthode ASPIRE de Google : offre des capacités dauto-évaluation du LLM, résout efficacement le problème de lillusion et dépasse 10 fois le modèle de volume

Le parcours expérimental des chercheurs avec ASPIRE met en évidence un changement clé dans le paysage LLM : la capacité d'un modèle de langage n'est pas la clé de sa performance.

En revanche, l'efficacité du modèle peut être considérablement améliorée grâce à des ajustements politiques, permettant des prédictions plus précises et plus fiables, même dans des modèles plus petits.

Ainsi, ASPIRE démontre le potentiel de LLM pour déterminer judicieusement la certitude de ses propres réponses et surpasser significativement d'autres modèles de 10 fois la taille dans les tâches de prédiction sélective.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Utilisez ddrescue pour récupérer des données sous Linux Utilisez ddrescue pour récupérer des données sous Linux Mar 20, 2024 pm 01:37 PM

DDREASE est un outil permettant de récupérer des données à partir de périphériques de fichiers ou de blocs tels que des disques durs, des SSD, des disques RAM, des CD, des DVD et des périphériques de stockage USB. Il copie les données d'un périphérique bloc à un autre, laissant derrière lui les blocs corrompus et ne déplaçant que les bons blocs. ddreasue est un puissant outil de récupération entièrement automatisé car il ne nécessite aucune interruption pendant les opérations de récupération. De plus, grâce au fichier map ddasue, il peut être arrêté et repris à tout moment. Les autres fonctionnalités clés de DDREASE sont les suivantes : Il n'écrase pas les données récupérées mais comble les lacunes en cas de récupération itérative. Cependant, il peut être tronqué si l'outil est invité à le faire explicitement. Récupérer les données de plusieurs fichiers ou blocs en un seul

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Vitesse Internet lente des données cellulaires sur iPhone : correctifs Vitesse Internet lente des données cellulaires sur iPhone : correctifs May 03, 2024 pm 09:01 PM

Vous êtes confronté à un décalage et à une connexion de données mobile lente sur iPhone ? En règle générale, la puissance de l'Internet cellulaire sur votre téléphone dépend de plusieurs facteurs tels que la région, le type de réseau cellulaire, le type d'itinérance, etc. Vous pouvez prendre certaines mesures pour obtenir une connexion Internet cellulaire plus rapide et plus fiable. Correctif 1 – Forcer le redémarrage de l'iPhone Parfois, le redémarrage forcé de votre appareil réinitialise simplement beaucoup de choses, y compris la connexion cellulaire. Étape 1 – Appuyez simplement une fois sur la touche d’augmentation du volume et relâchez-la. Ensuite, appuyez sur la touche de réduction du volume et relâchez-la à nouveau. Étape 2 – La partie suivante du processus consiste à maintenir le bouton sur le côté droit. Laissez l'iPhone finir de redémarrer. Activez les données cellulaires et vérifiez la vitesse du réseau. Vérifiez à nouveau Correctif 2 – Changer le mode de données Bien que la 5G offre de meilleures vitesses de réseau, elle fonctionne mieux lorsque le signal est plus faible

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. May 07, 2024 pm 05:00 PM

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,

See all articles