ICML 2024 Oral | Le DPO est-il plus adapté au LLM que le PPO ?-IA-php.cn

Maison

Périphériques technologiques

ICML 2024 Oral | Le DPO est-il plus adapté au LLM que le PPO ?

王林

Jul 22, 2024 pm 06:41 PM

工程

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Wu Yi, penolong profesor di Institut Maklumat Antara Disiplin, Universiti Tsinghua, bekas penyelidik penyelidikan sepenuh masa di OpenAI, , penjajaran model besar, interaksi Komputer manusia, pembelajaran robot, dsb. Mendapat PhD dari University of California, Berkeley, pada 2019, belajar di bawah Profesor Stuart Russell lulus dari Institut Maklumat Antara Disiplin Universiti Tsinghua (Kelas Yao) pada 2014. Kerja-kerja wakilnya termasuk: Kertas kerja terbaik NIPS2016, Rangkaian Lelaran Nilai yang paling banyak dipetik dalam bidang pembelajaran tetulang dalam pelbagai ejen, algoritma MADDPG OpenAI, dsb.

Bagaimana untuk menjadikan model besar lebih mematuhi arahan dan niat manusia? Bagaimana untuk menjadikan model besar mempunyai keupayaan penaakulan yang lebih baik? Bagaimana untuk mengelakkan halusinasi dalam model besar? Sama ada masalah ini boleh diselesaikan ialah cabaran teknikal yang paling kritikal untuk menjadikan model besar benar-benar tersedia secara meluas dan juga mencapai kecerdasan super. Cabaran paling sukar ini juga merupakan tumpuan penyelidikan jangka panjang pasukan Wu Yi, dan merupakan masalah yang perlu diatasi oleh teknologi penjajaran model besar (Penjajaran).

Dalam teknologi penjajaran, rangka kerja algoritma yang paling penting ialah pembelajaran pengukuhan berdasarkan maklum balas manusia (RLHF, Pembelajaran Pengukuhan daripada Maklum Balas Manusia). RLHF mempelajari fungsi ganjaran (Model Ganjaran) berdasarkan maklum balas manusia berdasarkan maklum balas keutamaan manusia untuk output model besar, dan seterusnya melaksanakan latihan pembelajaran pengukuhan pada model besar, supaya model besar boleh belajar membezakan kualiti respons dalam lelaran berulang, dan mencapai keupayaan model yang Diperbaiki. Pada masa ini, model bahasa yang paling berkuasa di dunia, seperti model GPT OpenAI dan model Claude Anthropic, sangat menekankan kepentingan latihan RLHF. OpenAI dan Anthropic juga telah membangunkan sistem latihan RLHF secara dalaman berdasarkan algoritma PPO berskala besar untuk penjajaran model besar.

Walau bagaimanapun, disebabkan proses kompleks algoritma PPO dan penggunaan kuasa pengkomputeran yang tinggi, sistem latihan RLHF berskala besar syarikat AI Amerika tidak pernah menjadi sumber terbuka, walaupun algoritma PPO sangat kuat, kerja penjajaran dalam akademia jarang menggunakan kaedah yang rumit Algoritma PPO digunakan untuk penyelidikan RLHF, dan algoritma penjajaran seperti SFT (penalaan halus diselia) atau DPO (Pengoptimuman Dasar Langsung) biasanya digunakan yang lebih mudah, lebih langsung. , dan mempunyai keperluan yang lebih rendah pada sistem latihan.

Jadi, adakah algoritma penjajaran mudah pasti berfungsi dengan lebih baik? Kerja "Adakah DPO Unggul daripada PPO untuk Penjajaran LLM? Kajian Komprehensif" yang diterbitkan oleh pasukan Wu Yi di ICML 2024 dengan teliti membincangkan ciri-ciri algoritma DPO dan PPO dan menunjukkan perkara utama untuk meningkatkan kesan algoritma RLHF. Dalam kerja ini, berdasarkan sistem latihan RLHF berskala besar yang dibangunkan sendiri, pasukan Wu Yi menggunakan algoritma PPO dan model sumber terbuka dengan parameter yang lebih sedikit untuk kali pertama, mengatasi tugas penjanaan kod skala besar sumber tertutup CodeContest dalam cabaran paling sukar yang diiktiraf.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Keputusan yang berkaitan telah diterima sebagai Persembahan Lisan oleh ICML 2024, dan akan dilaporkan secara terbuka pada sesi Lisan pertama Penjajaran-1 ICML 2024 pada 23 Julai, bersama-sama dengan kerja institusi terkenal seperti OpenAI dan Antropik.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Seterusnya, mari kita bandingkan kesan penjanaan kod GPT-4 dan model CodeLlama 34B yang dilatih oleh algoritma PPO Dalam Contoh 1, model CodeLlama 34B yang dilatih oleh algoritma PPO dan model GPT-4 dijana. Kod kualiti setanding.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Dalam Contoh 2, anda dapat melihat bahawa kedua-dua model CodeLlama 34B dan model GPT-4 yang dilatih oleh algoritma PPO boleh menjana kod python yang lengkap dan boleh dijalankan. Walau bagaimanapun, dalam contoh ini, GPT-4 menghasilkan kod yang salah dan gagal untuk mengeluarkan dengan betul pada data ujian. Kod yang dijana oleh model CodeLlama 34B yang dilatih oleh algoritma PPO boleh lulus ujian.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Dans cet article de l'ICML 2024, l'équipe de recherche a discuté en détail des caractéristiques des algorithmes DPO et PPO et a souligné les points clés pour améliorer les capacités du DPO et du PPO.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Titre de l'article : Le DPO est-il supérieur au PPO pour l'alignement LLM ?
Algorithme DPO Limites

Par rapport au PPO, DPO utilise des données hors ligne au lieu de données d'échantillonnage en ligne pour la formation. Après analyse, l'algorithme DPO amènera le modèle entraîné à privilégier les sorties en dehors de la distribution des données d'entraînement et, dans certains cas, produira des réponses imprévisibles.

Ainsi, afin d'améliorer les capacités de l'algorithme DPO, l'équipe de recherche a résumé deux technologies clés : Effectuer une formation SFT supplémentaire avant la formation RLHF et utiliser des données d'échantillonnage en ligne au lieu de données hors ligne

Les expériences montrent que l'utilisation d'une formation SFT supplémentaire peut rendre le modèle de base et le modèle de référence plus biaisés en faveur de la distribution au sein de l'ensemble de données, améliorant considérablement l'effet de l'algorithme DPO, d'autre part, de l'algorithme DPO utilisant l'échantillonnage en ligne ; les données pour la formation itérative peuvent Il a été régulièrement amélioré et ses performances sont bien meilleures que l'algorithme DPO de base.

Les points clés de l'algorithme PPO

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

À l'exclusion du DPO, le document résume également trois points clés pour maximiser les capacités du PPO :

Utiliser un lot de grande taille (grand taille du lot)

avantage normalisation

et mettre à jour le modèle de référence en utilisant la moyenne mobile exponentielle (moyenne mobile exponentielle pour le modèle de référence).

L'équipe de recherche a utilisé avec succès l'algorithme PPO pour obtenir des résultats SOTA sur les tâches de dialogue Safe-RLHF/HH-RLHF et la tâche de génération de code APPS/CodeContest.
Sur la tâche de dialogue, l'équipe de recherche a constaté que l'algorithme PPO qui combine trois points clés est nettement meilleur que l'algorithme DPO et l'algorithme DPO d'échantillonnage en ligne DPO-Iter.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Dans les tâches de génération de code APPS et CodeContest, basées sur le modèle open source Code Llama 34B, l'algorithme PPO a également atteint le niveau le plus élevé, dépassant le précédent SOTA, AlphaCode 41B dans CodeContest.

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Pour obtenir un alignement de modèles à grande échelle avec de meilleurs résultats, un système de formation très efficace est indispensable. L'équipe de Wu Yi s'est accumulée à long terme dans la réalisation d'une formation d'apprentissage par renforcement à grande échelle et a construit depuis 2021 un cadre d'apprentissage par renforcement distribué exclusif. .

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

NeurIPS 2022 L'efficacité surprenante du PPO dans les jeux multi-agents coopératifs [1] : Proposition et open source du cadre de formation parallèle d'apprentissage par renforcement MAPPO pour multi-agent pour prendre en charge la formation multi-agent dans des scénarios coopératifs. a été utilisé dans un grand nombre de travaux dans le domaine multi-agents, et le nombre actuel de citations dans les articles a dépassé 1 000.
ICLR 2024 étend l'apprentissage par renforcement distribué à plus de dix mille cœurs [2] : proposition d'un cadre de formation distribué pour l'apprentissage par renforcement, qui peut être facilement étendu à des dizaines de milliers de cœurs, et le taux d'accélération dépasse le renforcement à grande échelle d'OpenAI système d'apprentissage rapide.
ReaLHF : Formation RLHF optimisée pour les grands modèles de langage grâce à la réaffectation des paramètres [3] : Récemment, l'équipe de Wu Yi a mis en œuvre le cadre de formation distribué RLHF ReaLHF. L'article oral ICML de l'équipe de Wu Yi a été produit sur la base du système ReaLHF. Le système ReaLHF a été développé depuis longtemps et a subi de nombreux détails pour obtenir des performances optimales. Par rapport aux travaux open source précédents, ReaLHF peut atteindre une évolutivité quasi linéaire dans RLHF, un scénario plus complexe que la pré-formation. Il utilise également plus de ressources et peut exécuter RLHF de manière stable et rapide sur 128 GPU A100. est open source : https://github.com/openpsi-project/ReaLHF

En plus d'améliorer les capacités de codage des grands modèles de langage, l'équipe de Wu Yi utilise également une variété d'algorithmes d'apprentissage par renforcement et de grands La combinaison de modèles réalise une variété d'agents LLM complexes et peut réaliser des interactions complexes avec les humains.

Utilisez l'apprentissage par renforcement dans MiniRTS pour créer un agent linguistique capable à la fois de suivre les instructions humaines et de prendre des décisions optimales [4].

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Formez des stratégies d'apprentissage par renforcement diversifiées en stratégie dans Werewolf pour améliorer les capacités de prise de décision des grands modèles [5].

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Dans le jeu Overcooked, des petits modèles et des grands modèles sont combinés pour implémenter un agent linguistique coopératif qui peut fournir des commentaires en temps réel [6].

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

La combinaison de la stratégie de contrôle du robot entraînée par l'apprentissage par renforcement et des capacités de raisonnement du grand modèle de langage permet au robot d'effectuer une série de tâches complexes [7].

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

Pour que les grands modèles pénètrent véritablement dans des milliers de foyers, la technologie d'alignement est cruciale Pour les universitaires et les praticiens des grands modèles, de bons travaux et articles open source réduiront sans aucun doute considérablement les coûts expérimentaux et les difficultés de développement, nous nous attendons également à ce qu'avec. Avec le développement de la technologie, des modèles plus grands au service des êtres humains apparaîtront.

^{[1] Yu, Chao, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen et Yi Wu "L'efficacité surprenante du ppo dans les jeux multi-agents coopératifs."}

^{[2] Mei, Zhiyu, Wei Fu, Guangju Wang, Huanchen Zhang et Yi Wu "SRL : étendre l'apprentissage par renforcement distribué à plus de dix mille cœurs."}

^{[3] Mei, Zhiyu, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang et Yi Wu. "ReaLHF : formation RLHF optimisée pour les grands modèles de langage grâce à la réaffectation des paramètres."}

^{[4] Xu, Shusheng, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu et Yi Wu. "Génération guidée par le langage de mouvements et de contrôles de robots physiquement réalistes."}

^{[5] Xu, Zelai, Chao Yu, Fei Fang, Yu Wang et Yi Wu. "Agents linguistiques avec apprentissage par renforcement pour le jeu stratégique dans le jeu du loup-garou."}

^{[6] Liu, Jijia, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu et Yu Wang "Llm-. agent linguistique hiérarchique optimisé pour la coordination homme-IA en temps réel. Locomotion et manipulation sur un robot quadrupède à grands modèles de langage."}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1673

Tutoriel CakePHP

1429

Tutoriel Laravel

1333

Tutoriel PHP

1278

Tutoriel C#

1257

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles