Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.-IA-php.cn

Table des matières

SimPO : Optimisation simple des préférences

Configuration expérimentale

Résultats expérimentaux

Maison

Périphériques technologiques

Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2024 pm 04:41 PM

模型训练

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est crucial d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement des LLM, une approche efficace est l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense.

Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l'optimisation directe des préférences (DPO). DPO apprend un modèle de politique directement basé sur les données de préférences en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable et a été largement utilisée dans la pratique.

Lors de l'utilisation du DPO, le moyen d'obtenir des récompenses implicites consiste à utiliser le logarithme du rapport de vraisemblance de réponse entre le modèle de politique actuel et le modèle de réglage fin supervisé (SFT). Cependant, cette façon de structurer la récompense ne correspond pas directement à la métrique générée par le bootstrap, qui correspond approximativement au logarithme moyen de la réponse générée par le modèle politique. Cette différence entre formation et inférence peut conduire à de mauvaises performances.

À cette fin, Meng Rui, professeur adjoint à l'Université de Virginie, Xia Mengzhou, doctorante à l'Université de Princeton, et Chen Danqi, professeur adjoint, ont proposé conjointement SimPO - un algorithme d'optimisation des préférences hors ligne simple et efficace. . La conception de SimPO est basée sur la modélisation du problème d'optimisation comme un problème de minimisation d'une fonction boîte noire continue. Grâce à une itération continue, SimPO est capable de trouver la meilleure stratégie d'optimisation et d'obtenir une convergence efficace. Par rapport aux algorithmes d'optimisation traditionnels,

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Titre de l'article : SimPO : Optimisation simple des préférences avec une récompense sans référence
Adresse de l'article : https://arxiv.org /pdf /2405.14734
Code et modèle : https://github.com/princeton-nlp/SimPO

Le cœur de l'algorithme est de combiner la fonction de récompense dans l'objectif d'optimisation des préférences avec l’alignement des indicateurs de génération. SimPO se compose de deux éléments principaux : (1) une récompense dont la longueur est normalisée, calculée comme la probabilité moyenne du journal de tous les jetons de la récompense à l'aide du modèle politique (2) une différence de récompense cible pour garantir les gains et les pertes. La différence de récompense entre les réponses ; dépasse cette différence.

Pour résumer, SimPO présente les caractéristiques suivantes :

Simple : SimPO ne nécessite pas de modèle de référence, il est donc plus léger et plus facile à mettre en œuvre que d'autres méthodes comme le DPO qui s'appuient sur des modèles de référence.
Avantages évidents en termes de performances : bien que SimPO soit simple, ses performances sont nettement meilleures que celles de DPO et de ses dernières variantes (telles que la récente cible sans référence ORPO). Comme le montre la figure 1. Et SimPO présente des avantages stables dans différents paramètres d'entraînement et plusieurs tests de conformité des commandes (y compris AlpacaEval 2 et le difficile test Arena-Hard).
Utilisation minimale de la longueur : par rapport aux modèles SFT ou DPO, SimPO n'augmente pas de manière significative la longueur de réponse (voir tableau 1), ce qui signifie que son utilisation de la longueur est minimale.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

L'équipe a mené une analyse approfondie et les résultats ont montré que SimPO peut utiliser plus efficacement les données de préférence pour classer plus précisément la probabilité de réponses de haute et de mauvaise qualité sur l'ensemble de validation, ce qui permet en outre de créer une meilleure stratégie. des modèles.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Comme le montre le tableau 1, l'équipe a construit un modèle avec des performances optimales basé sur Llama3-8B-instruct, qui a atteint un taux de victoire contrôlé en longueur de 44,7 sur AlpacaEval 2, dépassant le classement Claude 3 Opus ; de plus, son taux de victoire sur Arena-Hard est de 33,8, ce qui en fait le modèle open source 8B le plus puissant actuellement.

SimPO : Optimisation simple des préférences

Pour faciliter la compréhension, ce qui suit présente d'abord le contexte du DPO, puis explique la différence entre la récompense du DPO et la mesure de probabilité utilisée pour la génération, et propose un modèle sans référence formule de récompense alternative pour atténuer ce problème. Enfin, l'objectif SimPO est dérivé en intégrant le terme de marge de récompense cible dans le modèle Bradley-Terry.

Contexte : Optimisation directe des préférences (DPO)

DPO est l'une des méthodes d'optimisation des préférences hors ligne les plus couramment utilisées. DPO n'apprend pas de modèle de récompense explicite, mais utilise une expression fermée avec une politique optimale pour reparamétrer la fonction de récompense r :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

où π_θ est le modèle de politique, π_ref est la référence politique (généralement le modèle SFT) et Z (x) est la fonction de partition. En intégrant cette façon de créer des récompenses dans l'objectif de classement Bradley-Terry (BT), Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. , le DPO peut utiliser un modèle de politique au lieu d'un modèle de récompense pour représenter la probabilité des données de préférence, ce qui aboutit à l'objectif suivant :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

où (x, y_w, y_l) est la paire de préférences composée d'une réponse rapide, gagnante et d'une réponse perdante de l'ensemble de données de préférence D.

Une récompense simple sans référence et alignée sur les résultats générés

La différence entre les récompenses DPO et générées. L'utilisation de l'équation (1) comme expression implicite de récompense présente les inconvénients suivants : (1) La phase d'entraînement nécessite un modèle de référence π_ref, ce qui entraînera des coûts de mémoire et de calcul supplémentaires ; (2) La récompense optimisée dans la phase d'entraînement et la génération utilisée ; en inférence Il existe des différences entre les indicateurs. Plus précisément, dans l'étape de génération, le modèle politique π_θ est utilisé pour générer une séquence qui peut approximativement maximiser la log-vraisemblance moyenne, définie comme suit :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Il est très difficile de maximiser directement cet indicateur lors du décodage. processus , diverses stratégies de décodage peuvent être utilisées pour cela, telles que le décodage glouton, la recherche de faisceaux, l'échantillonnage par noyau et l'échantillonnage top-k. De plus, cette métrique est souvent utilisée pour classer les options lorsque les modèles linguistiques effectuent des tâches de sélection multiple. Dans DPO, pour tout triplet (x, y_w, y_l), satisfaire au classement de récompense r (x, y_w) > r (x, y_l) ne signifie pas nécessairement satisfaire au classement de probabilité Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. . En fait, lors de l'entraînement avec DPO, seulement environ 50 % des triplés de l'ensemble d'exclusion remplissent cette condition (voir Figure 4b).

Construisez des récompenses de longueur normalisée. Naturellement, nous envisagerions d'utiliser p_θ dans (3) pour remplacer la construction de récompense dans DPO afin qu'elle s'aligne sur la métrique de vraisemblance générée par le bootstrap. Il en résulte une récompense dont la longueur est normalisée :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

où β est une constante qui contrôle la taille de la différence de récompense. L'équipe a constaté que la normalisation des récompenses en fonction de la longueur de la réponse est essentielle ; la suppression du terme de normalisation de la longueur de la formule de récompense a amené le modèle à avoir tendance à générer des séquences plus longues mais de moindre qualité. Cela élimine le besoin d’un modèle de référence pour créer des récompenses, ce qui se traduit par une mémoire et une efficacité de calcul supérieures à celles des algorithmes qui s’appuient sur des modèles de référence.

SimPO Target

Différence de récompense cible. En outre, l'équipe a également introduit un terme de différence de récompense cible γ > 0 pour l'objectif de Bradley-Terry afin de garantir que la récompense r (x, y_w) de la réponse gagnante dépasse la récompense r (x, y_l) de la réponse échouée. d'au moins γ :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La différence entre deux classes est connue pour affecter la capacité de généralisation du classificateur. Dans les paramètres de formation standard utilisant l'initialisation aléatoire du modèle, l'augmentation de la marge cible améliore généralement les performances de généralisation. Dans l'optimisation des préférences, ces deux catégories gagnent ou perdent des réponses à une seule entrée.

En pratique, l'équipe a observé qu'à mesure que la différence cible augmente, la qualité de la génération s'améliore dans un premier temps, mais que lorsque la différence devient trop importante, la qualité de la génération diminue. Une variante du DPO, l'IPO, construit également une marge de récompense cible similaire à SimPO, mais son objectif global est moins efficace que SimPO.

Objectifs. Enfin, en remplaçant l'équation (4) par l'équation (5), la cible SimPO peut être obtenue :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

En résumé, SimPO adopte une forme de récompense implicite directement alignée sur l'indicateur généré, éliminant ainsi le besoin d’exigences en matière de modèle de référence. De plus, il introduit une différence de récompense cible γ pour séparer les réponses gagnantes et perdantes.

Configuration expérimentale

Configuration du modèle et de la formation. Les expériences de l'équipe ont utilisé deux types de modèles, Llama3-8B et Mistral-7B, dans les paramètres Base et Instruct.

Benchmark d'évaluation. L'équipe a utilisé trois des benchmarks de conformité ouverts les plus couramment utilisés : MT-Bench, AlpacaEval 2 et Arena-Hard v0.1. Ces benchmarks évaluent les diverses capacités conversationnelles d'un modèle sur une variété de requêtes et ont été largement adoptés par la communauté. Le tableau 2 donne quelques détails.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Méthode de base. Le tableau 3 répertorie d'autres méthodes d'optimisation des préférences hors ligne par rapport à SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Résultats expérimentaux

Principaux résultats et études d'ablation

SimPO fonctionne toujours nettement mieux que les méthodes d'optimisation des préférences existantes. Comme le montre le tableau 4, bien que tous les algorithmes d'optimisation des préférences fonctionnent mieux que le modèle SFT, le simple SimPO atteint les meilleures performances sur tous les tests et paramètres. Une avance aussi importante à tous les niveaux démontre la robustesse et l’efficacité de SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La qualité des références varie. On peut observer que le taux de victoire sur Arena-Hard est nettement inférieur au taux de victoire sur AlpacaEval 2, ce qui indique qu'Arena-Hard est une référence plus difficile.

Les paramètres d'instruction apporteront des gains de performances significatifs. Comme on peut le voir, la configuration Instruct surpasse la configuration de base dans tous les domaines sur tous les benchmarks. Cela peut être dû à l'utilisation de modèles SFT de meilleure qualité pour l'initialisation par ces modèles et à la meilleure qualité des données de préférence générées par ces modèles.

Deux conceptions clés de SimPO sont importantes. Le tableau 5 montre les résultats des expériences d'ablation pour chaque conception clé de SimPO. (1) Supprimez la normalisation de la longueur dans (4) (c'est-à-dire sans LN) ; (2) Définissez la différence de récompense cible dans (6) sur 0 (c'est-à-dire γ = 0).

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La suppression de la normalisation de la longueur a le plus grand impact sur les résultats. Les recherches de l'équipe ont révélé que le modèle générait des modèles longs et répétitifs, ce qui réduisait considérablement la qualité globale du résultat. Définir γ sur 0 entraîne également une dégradation des performances de SimPO, indiquant que 0 n'est pas la marge de récompense cible optimale.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Voir l'article original pour une analyse plus approfondie de ces deux choix de conception.

Comparaison approfondie de DPO et SimPO

Enfin, l'équipe a également comparé de manière exhaustive DPO et SimPO sous quatre perspectives : (1) corrélation probabilité-longueur, (2) construction de récompense, ( 3 ) Précision des récompenses, (4) Efficacité algorithmique. Les résultats montrent que SimPO surpasse DPO en termes de précision et d’efficacité.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Les récompenses DPO favorisent implicitement la normalisation de la longueur.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Bien que l'expression de récompense DPO Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. (sans la fonction de partition) ne dispose pas d'un terme explicite pour la normalisation de la longueur, le rapport logarithmique entre le modèle politique et le modèle de référence peut être implicitement destiné à compenser le biais de longueur. Comme le montrent le tableau 6 et la figure 4a, l'utilisation de DPO réduit le coefficient de corrélation de Spearman entre la log-vraisemblance moyenne et la longueur de réponse par rapport à la méthode sans aucune normalisation de la longueur (notée SimPO sans LN). Cependant, il montre toujours une corrélation positive plus forte que SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La récompense DPO ne correspond pas à la probabilité générée.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Il existe une différence entre la récompense du DPO et la métrique de log-vraisemblance moyenne, qui affecte directement la génération. Comme le montre la figure 4b, dans l'instance de l'ensemble d'entraînement UltraFeedback, où Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. , près de la moitié des paires de données ont . En revanche, SimPO utilise directement la log-vraisemblance moyenne (mise à l'échelle par β) comme expression de récompense, éliminant ainsi complètement la différence.

DPO n'est pas aussi bon que SimPO en termes de précision des récompenses.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La figure 4c compare la précision des récompenses de SimPO et DPO, qui évalue dans quelle mesure leurs récompenses finales apprises s'alignent avec les étiquettes de préférence sur l'ensemble d'exclusion. On peut observer que la précision des récompenses de SimPO est supérieure à celle de DPO, ce qui indique que la conception des récompenses de SimPO permet d'obtenir une généralisation plus efficace et une génération de meilleure qualité.

SimPO est plus efficace en termes de mémoire et de calcul que DPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Un autre gros avantage de SimPO est son efficacité, après tout, il n'utilise pas de modèle de référence. La figure 4d présente la durée d'exécution globale et l'utilisation maximale de la mémoire par GPU pour SimPO et DPO lors de l'utilisation de la configuration Llama3-Base sur un GPU 8 × H100. SimPO réduit le temps d'exécution d'environ 20 % et l'utilisation de la mémoire GPU d'environ 10 % par rapport à l'implémentation DPO d'origine, grâce à l'élimination des passes avant à l'aide du modèle de référence.

Pour plus de détails, veuillez lire l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

3 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7649

Tutoriel CakePHP

1392

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT MINI RÉPONSES DE MOTS CROSS

110

Afficher plus

Related knowledge

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

See all articles