IVG : Intégrer les valeurs humaines dans de grands modèles de langage au moment de l'inférence-web3.0-php.cn

Maison

web3.0

IVG : Intégrer les valeurs humaines dans de grands modèles de langage au moment de l'inférence

Linda Hamilton

Oct 03, 2024 pm 03:16 PM

AI Integrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

IVG : Intégrer les valeurs humaines dans de grands modèles de langage au moment de l'inférence

L'intégration des valeurs humaines après avoir entraîné un modèle avec des algorithmes basés sur l'apprentissage nécessite un réglage fin des LLM, ce qui est coûteux en termes de calcul et prend du temps. De plus, cela génère des réponses biaisées et indésirables de la part de l’utilisateur. Un modèle capable de s'adapter efficacement aux préférences de l'utilisateur en temps réel en intégrant des algorithmes pouvant interférer au moment de l'inférence est nécessaire. Cette méthode évitera de recycler les modèles à plusieurs reprises pour obtenir les résultats souhaités en gelant le modèle de base et en réduisant le coût de calcul lié au réglage fin des LLM.

Les chercheurs ont développé des méthodes d'alignement du temps d'inférence pour intégrer les valeurs humaines après avoir affiné les LLM à l'aide des fonctions implicites et explicites sans modifier le modèle de base. Des fonctions implicites sont utilisées pour la génération de jetons, qui effectue des évaluations mot par mot et préfère la sortie avec la probabilité la plus élevée. En revanche, les fonctions explicites nécessitent une structure rigide pour évaluer des morceaux de texte plus volumineux et générer la séquence de mots suivante avec la probabilité la plus élevée tout en conservant le contexte global. La fonction explicite est rigide et coûteuse en calcul, ne parvenant pas à résoudre l'optimisation au niveau du jeton, tandis que la fonction implicite est confrontée à des problèmes d'interprétabilité et nécessite des passes avant fréquentes, ce qui entraîne une faible efficacité en temps réel.

Pour remédier aux inconvénients des deux fonctions, la méthode proposée, Integrated Value Guidance (IVG), combine l’optimisation au niveau du jeton de la fonction implicite et la perspective plus large de la fonction explicite. Il a permis d’éviter les défis d’adaptation et les compromis en termes d’efficacité de l’alignement, entraînant une diminution des écarts de performances et facilitant sa mise en œuvre. Ces avantages ont facilité de meilleures performances sur des tâches telles que la génération et la synthèse contrôlées de sentiments. IVG, combiné aux modèles plus petits comme le GPT-2, pourrait rivaliser avec les modèles supérieurs.

IVG intègre les deux fonctions de valeur, les fonctions implicite et explicite, pour aligner le modèle sur les valeurs humaines. Premièrement, l'échantillonnage par jeton ajuste les jetons individuels à une longueur de séquence spécifique, générant ainsi plusieurs séquences. Ensuite, la recherche de faisceaux au niveau des morceaux compare les probabilités de ces séquences et sélectionne celle ayant la probabilité la plus élevée. Bien que cette méthode garantisse que la sortie est plus robuste, la puissance de calcul augmente pendant le temps d'inférence en raison des passes avant fréquentes, ce qui entraîne des réponses plus lentes.

Les chercheurs ont utilisé deux configurations expérimentales pour évaluer l'IVG : 1. Génération et résumé de sentiments contrôlés, et 2. Suivi des instructions. Dans le premier, la famille de modèles GPT-2 est utilisée en exploitant des ensembles de données synthétiques provenant d'un modèle de récompense en or pour générer des critiques de films positives et résumer les publications Reddit. En comparaison, le second nécessite un modèle optimisé pour les instructions, AlpacaEval 2.0. Il utilise Tulu Guidance, qui utilise des modèles spécifiques pour la fonction implicite et forme un modèle basé sur les récompenses pour la fonction explicite, et Ultraguidance, qui affine un modèle avec l'optimisation des préférences directes (DPO) pour les deux fonctions. GPT-4-turbo a été utilisé comme référence pour évaluer les réponses dans la deuxième expérience, et l'IVG a toujours bien fonctionné.

En plus de ces deux expériences, une étude d'ablation a prouvé que la recherche de faisceaux au niveau des morceaux (CBS) avait une efficacité de vitesse plus élevée que l'émulateur de réglage fin (EFT), qui utilise la fonction implicite pour le réglage fin. Ces résultats ont prouvé que CBS est bien meilleur à utiliser dans la pratique.

En conclusion, Integrated Value Guidance (IVG) propose une approche nouvelle et efficace pour aligner de grands modèles de langage sur les préférences humaines uniquement au moment de l'inférence, en contournant les complexités du réglage fin traditionnel. En tirant parti des fonctions de valeur implicites et explicites, IVG améliore les performances à la fois en matière d'échantillonnage par jeton et de décodage au niveau des blocs, comme le démontrent des améliorations significatives dans les tâches de génération de sentiments, de résumé et de suivi d'instructions. Les résultats ont montré que l'IVG est une méthode polyvalente, fournissant des preuves empiriques solides de sa capacité à surclasser les approches existantes, ce qui en fait une solution prometteuse pour affiner les grands modèles dans des applications réelles.

N'oubliez pas de rejoindre notre SubReddit 50k ML

Vous voulez vous présenter devant 1 million de lecteurs IA ? Travaillez avec nous ici

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1666

Tutoriel CakePHP

1425

Tutoriel Laravel

1326

Tutoriel PHP

1273

Tutoriel C#

1252

Afficher plus

Related knowledge

Intel Markets (INTL) pourrait être la crypto de l'année alors que les détenteurs de Cardano (ADA) se diversifient avant le Hard Fork Aug 25, 2024 am 03:49 AM

Le marché de la cryptographie connaît un changement de sentiment important à mesure que les capitaux marginalisés commencent à y entrer. Des projets comme Near Protocol (NEAR) et Cardano (ADA) se réchauffent en prévision du prochain rallye.

Shytoshi Kusama fait allusion à une prochaine collaboration avec le projet AI NFA Labs Aug 09, 2024 am 06:27 AM

Shytoshi Kusama, la figure énigmatique à la tête de l'écosystème Shiba Inu, a suscité des spéculations sur une prochaine collaboration avec un projet d'IA.

Coinbase et Tether dévoilent des plates-formes basées sur l'IA pour responsabiliser les développeurs dans l'espace Blockchain Oct 29, 2024 am 03:24 AM

La plateforme « Based Agent » de Coinbase et le SDK Local AI de Tether visent à simplifier le développement d'agents de crypto-monnaie basés sur l'IA.

Launchpool incube ONAI, un écosystème d'IA basé sur la blockchain TON Aug 05, 2024 pm 03:32 PM

Ce partenariat représente une avancée cruciale vers l’intégration des agents d’IA commerciaux et de l’automatisation dans l’espace Web3.

Firecoin lève 1,2 million de dollars pour apporter des informations sur les jetons basées sur l'IA à l'écosystème TON Oct 25, 2024 am 12:12 AM

Investir sur le marché de la cryptographie peut être extrêmement lucratif, les nouveaux jetons générant parfois jusqu'à 160 000 % de rendement annuel pour les investisseurs.

L'IA d'Apple va changer la donne, les pièces d'IA se rallieront probablement la semaine prochaine Sep 09, 2024 am 03:15 AM

Apple est prêt pour le lancement de l'iPhone 16 lundi, se préparant à une avancée majeure vers l'IA générative en la présentant à ses consommateurs d'iPhone

Sui (SUI) et GoodEgg (GEGG) : deux projets prometteurs à surveiller sur le marché des crypto-monnaies en septembre Sep 12, 2024 pm 09:01 PM

Alors que le marché des cryptomonnaies est confronté à des tendances fluctuantes, les investisseurs avisés commencent à tourner leur attention vers des projets émergents qui démontrent une résilience et un potentiel de croissance. Avec des inquiétudes concernant la trajectoire volatile des prix du Bitcoin (BTC),

XRP Healthcare entre dans le monde de l'IA et dévoile un chatbot alimenté par l'IA pour améliorer l'expérience utilisateur Sep 11, 2024 am 09:01 AM

XRP Healthcare, une plateforme pionnière dans le domaine pharmaceutique et de la santé sur le XRP Ledger (XRPL), est officiellement entrée dans le monde de l'intelligence artificielle (IA).