

IVG : Intégrer les valeurs humaines dans de grands modèles de langage au moment de l'inférence
Les chercheurs ont développé des méthodes d'alignement du temps d'inférence pour intégrer les valeurs humaines après avoir affiné les LLM à l'aide des fonctions implicites et explicites sans modifier le modèle de base.
L'intégration des valeurs humaines après avoir entraîné un modèle avec des algorithmes basés sur l'apprentissage nécessite un réglage fin des LLM, ce qui est coûteux en termes de calcul et prend du temps. De plus, cela génère des réponses biaisées et indésirables de la part de l’utilisateur. Un modèle capable de s'adapter efficacement aux préférences de l'utilisateur en temps réel en intégrant des algorithmes pouvant interférer au moment de l'inférence est nécessaire. Cette méthode évitera de recycler les modèles à plusieurs reprises pour obtenir les résultats souhaités en gelant le modèle de base et en réduisant le coût de calcul lié au réglage fin des LLM.
Les chercheurs ont développé des méthodes d'alignement du temps d'inférence pour intégrer les valeurs humaines après avoir affiné les LLM à l'aide des fonctions implicites et explicites sans modifier le modèle de base. Des fonctions implicites sont utilisées pour la génération de jetons, qui effectue des évaluations mot par mot et préfère la sortie avec la probabilité la plus élevée. En revanche, les fonctions explicites nécessitent une structure rigide pour évaluer des morceaux de texte plus volumineux et générer la séquence de mots suivante avec la probabilité la plus élevée tout en conservant le contexte global. La fonction explicite est rigide et coûteuse en calcul, ne parvenant pas à résoudre l'optimisation au niveau du jeton, tandis que la fonction implicite est confrontée à des problèmes d'interprétabilité et nécessite des passes avant fréquentes, ce qui entraîne une faible efficacité en temps réel.
Pour remédier aux inconvénients des deux fonctions, la méthode proposée, Integrated Value Guidance (IVG), combine l’optimisation au niveau du jeton de la fonction implicite et la perspective plus large de la fonction explicite. Il a permis d’éviter les défis d’adaptation et les compromis en termes d’efficacité de l’alignement, entraînant une diminution des écarts de performances et facilitant sa mise en œuvre. Ces avantages ont facilité de meilleures performances sur des tâches telles que la génération et la synthèse contrôlées de sentiments. IVG, combiné aux modèles plus petits comme le GPT-2, pourrait rivaliser avec les modèles supérieurs.
IVG intègre les deux fonctions de valeur, les fonctions implicite et explicite, pour aligner le modèle sur les valeurs humaines. Premièrement, l'échantillonnage par jeton ajuste les jetons individuels à une longueur de séquence spécifique, générant ainsi plusieurs séquences. Ensuite, la recherche de faisceaux au niveau des morceaux compare les probabilités de ces séquences et sélectionne celle ayant la probabilité la plus élevée. Bien que cette méthode garantisse que la sortie est plus robuste, la puissance de calcul augmente pendant le temps d'inférence en raison des passes avant fréquentes, ce qui entraîne des réponses plus lentes.
Les chercheurs ont utilisé deux configurations expérimentales pour évaluer l'IVG : 1. Génération et résumé de sentiments contrôlés, et 2. Suivi des instructions. Dans le premier, la famille de modèles GPT-2 est utilisée en exploitant des ensembles de données synthétiques provenant d'un modèle de récompense en or pour générer des critiques de films positives et résumer les publications Reddit. En comparaison, le second nécessite un modèle optimisé pour les instructions, AlpacaEval 2.0. Il utilise Tulu Guidance, qui utilise des modèles spécifiques pour la fonction implicite et forme un modèle basé sur les récompenses pour la fonction explicite, et Ultraguidance, qui affine un modèle avec l'optimisation des préférences directes (DPO) pour les deux fonctions. GPT-4-turbo a été utilisé comme référence pour évaluer les réponses dans la deuxième expérience, et l'IVG a toujours bien fonctionné.
En plus de ces deux expériences, une étude d'ablation a prouvé que la recherche de faisceaux au niveau des morceaux (CBS) avait une efficacité de vitesse plus élevée que l'émulateur de réglage fin (EFT), qui utilise la fonction implicite pour le réglage fin. Ces résultats ont prouvé que CBS est bien meilleur à utiliser dans la pratique.
En conclusion, Integrated Value Guidance (IVG) propose une approche nouvelle et efficace pour aligner de grands modèles de langage sur les préférences humaines uniquement au moment de l'inférence, en contournant les complexités du réglage fin traditionnel. En tirant parti des fonctions de valeur implicites et explicites, IVG améliore les performances à la fois en matière d'échantillonnage par jeton et de décodage au niveau des blocs, comme le démontrent des améliorations significatives dans les tâches de génération de sentiments, de résumé et de suivi d'instructions. Les résultats ont montré que l'IVG est une méthode polyvalente, fournissant des preuves empiriques solides de sa capacité à surclasser les approches existantes, ce qui en fait une solution prometteuse pour affiner les grands modèles dans des applications réelles.
N'oubliez pas de rejoindre notre SubReddit 50k ML
Vous voulez vous présenter devant 1 million de lecteurs IA ? Travaillez avec nous ici
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Le marché de la cryptographie connaît un changement de sentiment important à mesure que les capitaux marginalisés commencent à y entrer. Des projets comme Near Protocol (NEAR) et Cardano (ADA) se réchauffent en prévision du prochain rallye.

Shytoshi Kusama, la figure énigmatique à la tête de l'écosystème Shiba Inu, a suscité des spéculations sur une prochaine collaboration avec un projet d'IA.

La plateforme « Based Agent » de Coinbase et le SDK Local AI de Tether visent à simplifier le développement d'agents de crypto-monnaie basés sur l'IA.

Ce partenariat représente une avancée cruciale vers l’intégration des agents d’IA commerciaux et de l’automatisation dans l’espace Web3.

Investir sur le marché de la cryptographie peut être extrêmement lucratif, les nouveaux jetons générant parfois jusqu'à 160 000 % de rendement annuel pour les investisseurs.

Apple est prêt pour le lancement de l'iPhone 16 lundi, se préparant à une avancée majeure vers l'IA générative en la présentant à ses consommateurs d'iPhone

Alors que le marché des cryptomonnaies est confronté à des tendances fluctuantes, les investisseurs avisés commencent à tourner leur attention vers des projets émergents qui démontrent une résilience et un potentiel de croissance. Avec des inquiétudes concernant la trajectoire volatile des prix du Bitcoin (BTC),

XRP Healthcare, une plateforme pionnière dans le domaine pharmaceutique et de la santé sur le XRP Ledger (XRPL), est officiellement entrée dans le monde de l'intelligence artificielle (IA).