Maison Périphériques technologiques IA Un agent capable « d'évoluer de manière indépendante » ? Le premier cadre de formation symbolique d'agent de bout en bout est open source

Un agent capable « d'évoluer de manière indépendante » ? Le premier cadre de formation symbolique d'agent de bout en bout est open source

Jul 22, 2024 pm 02:25 PM
工程 ai agent Intelligence des formes d'onde

Un agent capable « dévoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les principaux auteurs de cet article proviennent de Waveform Intelligence, de l'Université du Zhejiang et de l'Université de Beihang. Dans le cadre du travail commun, Zhou Wangchunshu est le co-fondateur et directeur technique de Waveform Intelligence, Ou Yixin est étudiant en deuxième année de maîtrise à l'Université du Zhejiang et Ding Shengwei est étudiant en quatrième année de premier cycle à l'Université de Beihang. Les auteurs correspondants de l'article sont Zhou Wang Chunshu et Jiang Yuchen. Jiang Yuchen est le co-fondateur et PDG de Waveform Intelligence.

Avec l'itération de diverses API de grands modèles et l'open source de divers frameworks d'agents IA, les agents basés sur de grands modèles ont attiré une attention, une recherche et des applications généralisées dans le monde universitaire et l'industrie.

Bien que les agents basés sur de grands modèles (agents IA) aient obtenu de bons résultats dans de nombreux scénarios et puissent réellement être appliqués dans certains scénarios, les progrès de la recherche et du développement des agents IA sont encore limités à des activités centrées sur les « experts ». », ou paradigme « centré sur l’ingénierie ». En d’autres termes, le processus actuel de création et de réglage des agents repose encore presque entièrement sur la main-d’œuvre et l’expérience d’experts humains (ingénieurs en algorithmes) pour concevoir les invites, les outils et le flux de travail de l’agent. Un tel processus prend du temps et demande beaucoup de travail, et il est destiné à ne pas pouvoir utiliser des données massives pour apprendre et entraîner ces éléments symboliques de l'agent. La plupart des agents s'appuient sur des appels d'API à source fermée et ne peuvent pas optimiser eux-mêmes la grande base de modèles. Même si de grands modèles open source sont utilisés, l'optimisation de la base de modèles elle-même est limitée par les ressources et les ressources dans la plupart des scénarios d'application d'agents d'IA. mis en œuvre dans la pratique pour des raisons telles que la puissance de calcul et la stabilité. Par conséquent, les agents intelligents actuels sont encore au stade de développement de « systèmes experts ».

Comme nous le savons tous, la raison importante pour laquelle les réseaux de neurones sont devenus le paradigme de base de l'apprentissage automatique/de l'intelligence artificielle est précisément parce qu'ils peuvent utiliser efficacement des données massives pour la formation et l'optimisation sans avoir besoin de concevoir manuellement des structures et un apprentissage complexes. algorithmes. Par conséquent, les chercheurs de Waveform Intelligence estiment que la transformation de l’agent IA d’une approche centrée sur les experts à une approche centrée sur les données constituera un développement important pour les agents intelligents basés sur de grands modèles.

Afin d'atteindre cet objectif, l'équipe de recherche de Waveform Intelligence s'appuie sur les méthodes de base de l'apprentissage connexionniste pour former des réseaux de neurones (apprentissage connexionniste), c'est-à-dire la rétropropagation et la descente de gradient, analogise les agents d'IA et les réseaux de neurones, et utilise des fonctions de perte, des gradients et des optimiseurs de modèles de texte et de grands modèles, simule des algorithmes de rétropropagation et de descente de gradient, met en œuvre des algorithmes de formation symbolique de bout en bout pour les agents et crée un ensemble d'algorithmes pour la formation de bout en bout des agents d'IA. . Le framework et le code sont open source sur GitHub.

Un agent capable « dévoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

  • Adresse papier : https://arxiv.org/pdf/2406.18532
  • Référentiel de codes : https://github.com/aiwaves-cn/agents

Spécifiquement dit que l'équipe a d'abord déconstruit le grand agent basé sur un modèle en trois éléments principaux, à savoir les invites, les outils et le pipeline d'agents (workflow). Ensuite, dans le cadre, un système d'agent est considéré comme un réseau neuronal « symbolique », chaque nœud du flux de travail de l'agent est considéré comme une couche du réseau et les invites et outils de chaque nœud sont considérés comme ceci. La couche et le workflow/pipeline de l'agent peuvent être considérés comme le graphe de calcul du réseau. De cette manière, le système d'agents peut être considéré comme un réseau de neurones dont les poids changent de l'espace numérique/tensoriel à l'espace symbolique discret (les textes et les codes sont des représentations symboliques), et la formation de ce type de réseau peut naturellement se référer aux méthodes d'optimisation traditionnelles. des réseaux de neurones, à savoir la rétropropagation et la descente de gradient.

Un agent capable « dévoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

                                                                                                                                                                                       Figure 1 : Diagramme du cadre d'apprentissage symbolique des agents

Pour permettre la rétropropagation descente de gradient pour gérer l'espace de poids symbolique, le cadre d'apprentissage symbolique de l'agent utilise du texte et de grands modèles + mots d'invite L'approche modélise les pertes, fonctions de perte, processus de rétropropagation, gradients et optimiseurs basés sur les gradients. Plus précisément, pendant le processus de propagation vers l'avant, le framework enregistre l'entrée, le poids et la sortie de chaque couche dans le graphique de calcul. Ensuite, grâce à la méthode du grand modèle + mots d'invite, l'entrée, la sortie et la description de la tâche globale de l'échantillon actuel sont combinées dans les mots d'invite, puis le grand modèle de langage produit une évaluation et un résumé de l'achèvement du exemple de tâche actuelle. L'évaluation/résumé obtenu sous forme de texte, tout comme la perte dans les réseaux neuronaux, est utilisé pour mesurer la qualité de l'accomplissement des tâches. L'équipe de recherche appelle cela « la perte de forme textuelle », c'est-à-dire la perte basée sur le langage.

Après cela, la recherche utilise un grand modèle de langage et une ingénierie de mots d'invite soigneusement conçue pour générer une « réflexion » sur le dernier nœud du processus d'agent. Les réflexions portent notamment sur la manière dont la sortie du modèle doit changer pour mieux répondre aux exigences, et sur la manière dont les mots d'invite et les appels d'outils doivent être optimisés pour que la sortie change dans cette direction. Ce contenu est exactement le même que le rôle du gradient dans l'optimisation du réseau neuronal. Ils contiennent tous deux des informations sur la manière dont les paramètres doivent être ajustés pour minimiser la perte de l'ensemble du modèle. C'est pourquoi l'équipe de recherche appelle cette réflexion « gradient textuel ». , dégradé basé sur la langue.

La prochaine chose à faire est d'obtenir le dégradé de chaque couche de l'arrière vers l'avant, ce qui est crucial pour l'optimisation des réseaux de neurones. Inspirés par la rétropropagation de la formule basée sur les règles de chaîne dans les réseaux neuronaux, les chercheurs de Waveform Intelligence ont simulé la règle de chaîne de l'optimisation traditionnelle des réseaux neuronaux avec un ensemble d'invites soigneusement conçues via du texte et de grands modèles. Plus précisément, cet ensemble d'invites permet au grand modèle d'être basé sur les informations de gradient de la couche précédente (c'est-à-dire une réflexion sur les tâches effectuées par la couche précédente) et sur l'entrée, la sortie et les poids de cette couche (ces entrées sont complètement cohérent avec les paramètres de la formule de rétropropagation (correspondant), génère une réflexion sur l'utilisation de l'invite/de l'outil du nœud actuel, c'est-à-dire le dégradé basé sur le langage de la couche actuelle. Ce schéma de rétropropagation basé sur du texte permet à cette recherche d'obtenir le gradient des paramètres de chaque nœud/couche dans un agent contenant plusieurs nœuds et des flux de travail complexes, et peut ainsi optimiser directement chaque invite et outil pour l'ensemble de l'agent. parvenir à une optimisation conjointe de bout en bout.

Enfin, après avoir obtenu le dégradé basé sur le langage de chaque ensemble de paramètres, le framework utilise un optimiseur basé sur un grand modèle, utilisant des invites soigneusement conçues, des mots d'invite et des appels d'outils pour chaque couche, ainsi que des dégradés basés sur du texte. . En entrée, les invites et outils optimisés sont générés pour mettre à jour les paramètres de l'agent.

De plus, le framework prend également en charge l'optimisation de la structure du réseau, c'est-à-dire le flux de travail des agents. Plus précisément, le cadre exprime le flux de travail de l'agent dans un langage de programmation spécifique, de sorte que le « graphe de calcul » du réseau d'agents soit également traité en poids symboliques. Ensuite, grâce à un optimiseur basé sur un grand modèle conçu séparément, le flux de travail de l'agent est mis à jour en utilisant le flux de travail de l'agent actuel et les dégradés sous forme de texte de chaque nœud du flux de travail comme entrée. Cela peut être comparé aux recherches liées à la recherche automatique de structure de réseau dans la formation des réseaux neuronaux.​​​​​​​                                                                                                                                                                                                                                                   Figure 3 Résultats expérimentaux sur la tâche d'évaluation du grand modèle

Un agent capable « dévoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

                                                                                                                                                                                               Figure 4 Résultats expérimentaux de la tâche d'évaluation au niveau de l'agent

Les chercheurs de Waveform Intelligence ont évalué l'algorithme sur une série de tests pour de grands modèles et agents, comme le montrent les figures 3 et 4. Il montre que la symbolique de l'agent L'apprentissage s'est considérablement amélioré sur diverses tâches par rapport à DSpy et aux frameworks d'agents traditionnels sans capacités d'apprentissage, dans certaines tâches, il peut même utiliser GPT-3.5 pour rivaliser avec d'autres frameworks d'agents. Les performances sont similaires avec GPT-4. Cependant, la simple utilisation d'un algorithme d'optimisation automatique des mots d'invite locaux (AutoPE) basé sur un modèle de langage étendu pour les mots d'invite dans chaque nœud de l'agent ne peut pas obtenir de résultats évidents. De plus, comme le montre la figure 5, dans la tâche d'écriture créative, l'algorithme a évolué indépendamment d'un agent initial à nœud unique qui écrit uniquement sur la base d'un seul mot d'invite à un flux de travail qui prend en charge l'écriture + l'édition et le mot d'invite du nœud d'écriture Mis à jour et optimisé. S Figure 5 Cadre d'apprentissage symbolique d'agent Effets d'apprentissage (prenons comme exemple les tâches d'écriture créative)

Un agent capable « dévoluer de manière indépendante » ? Le premier cadre de formation symbolique dagent de bout en bout est open source

L'équipe de recherche en intelligence des formes d'onde a présenté les deux scénarios d'application de l'apprentissage symbolique d'agent. Premièrement, le cadre peut être utilisé par les développeurs ou les chercheurs pour créer et régler des systèmes d'agents. Comme pour la formation des réseaux de neurones, les développeurs et les chercheurs peuvent collecter (ou utiliser la génération automatique fournie dans le framework) un grand nombre d'échantillons pour des tâches spécifiées, puis utiliser le framework pour compléter la formation d'agents « centrés sur les données » sur de grandes quantités de données. Après formation et optimisation, tout comme le déploiement d'agents ordinaires, les agents optimisés sont déployés de manière statique dans l'environnement de production.

De plus, un autre scénario d'application important de ce framework est de prendre en charge des agents qui peuvent évoluer de manière autonome dans l'environnement/l'interaction. Plus précisément, étant donné que le cadre de formation lui-même n'a besoin que d'appeler la capacité de grands modèles sans formation ni déploiement complexes basés sur GPU, un agent peut utiliser le cadre de formation comme un outil qu'il peut appeler en explorant l'environnement ou en interagissant. avec les humains, il collecte en permanence de nouveaux échantillons de formation, appelle régulièrement ou activement des outils algorithmiques pour la formation des agents et met à jour ses propres invites, outils et flux de travail. Waveform Intelligence prend également en charge une telle logique de déploiement dans la base de code open source des agents AIWaves, créant ainsi le premier système d'agents capable de continuer à évoluer et à itérer de manière indépendante après avoir été déployé sur des produits et des environnements de production réels.

Le cadre d'apprentissage symbolique de l'agent traite l'agent IA comme un « réseau neuronal » symbolique connecté par des invites et des outils dans des flux de travail complexes en simulant la rétropropagation et la descente de gradient basées sur le langage naturel, il permet l'agent basé sur un modèle à grande échelle. peut optimiser indépendamment ses propres « paramètres de réseau », c'est-à-dire les invites et les outils, et sa « structure de réseau », c'est-à-dire le flux de travail des agents, obtenant ainsi une intelligence capable d'utiliser efficacement de grandes quantités de données et d'expérience et d'effectuer un « apprentissage centré sur les données ». " Le cadre d'agent permet aux systèmes d'agents intelligents de continuer à évoluer de manière autonome. Actuellement, ce cadre a joué un rôle dans plusieurs produits et applications de Waveform Intelligence, résolvant le problème de l'optimisation et de l'évaluation manuelles difficiles des agents. Afin de promouvoir le développement et la recherche sur le « Data-centric Agent » et le « Agent Learning », l'équipe de recherche de Waveform Intelligence a également open source tous les codes de l'algorithme. Nous attendons avec impatience les milieux académiques et industriels dans le domaine. d'agents intelligents explorant ensemble des algorithmes et des applications plus intéressants.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1671
14
Tutoriel PHP
1276
29
Tutoriel C#
1256
24
L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles