Maison Périphériques technologiques IA Pour vous apprendre à tondre 'l'alpaga' étape par étape, l'équipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Pour vous apprendre à tondre 'l'alpaga' étape par étape, l'équipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Oct 12, 2023 pm 06:29 PM
工程 Taille grand modèle llm-shearing

Quel sera l'effet de couper les poils d'alpaga du modèle Llama 2 ? Aujourd'hui, l'équipe Chen Danqi de l'Université de Princeton a proposé une méthode d'élagage de grands modèles appelée LLM-Shearing, qui permet d'obtenir de meilleures performances que les modèles de même taille avec une petite quantité de calcul et de coût.


Depuis l'émergence des grands modèles de langage (LLM), ils ont obtenu des résultats remarquables sur diverses tâches en langage naturel. Cependant, la formation des grands modèles de langage nécessite des ressources informatiques massives. En conséquence, l’industrie s’intéresse de plus en plus à la création de modèles de taille moyenne tout aussi puissants, avec l’émergence de LLaMA, MPT et Falcon, permettant une inférence et un réglage précis.

Ces LLM de différentes tailles conviennent à différents cas d'utilisation, mais entraîner chaque modèle individuel à partir de zéro (même un petit modèle avec 1 milliard de paramètres) nécessite toujours beaucoup de ressources informatiques, ce qui est encore difficile pour la plupart des recherches scientifiques institutions. C’est un gros fardeau.

Dans cet article, l'équipe Chen Danqi de l'Université de Princeton tente de résoudre le problème suivant : un LLM pré-entraîné existant peut-il être utilisé pour créer un LLM plus petit, à usage général et compétitif en termes de performances, tout en le formant à partir de zéro ? Nécessite beaucoup moins de calculs ?

Les chercheurs explorent l'utilisation de la taille structurée pour atteindre leurs objectifs. Le problème ici est que pour les LLM à usage général, le modèle élagué connaîtra une dégradation des performances, surtout s'il n'y a pas d'investissement informatique significatif après l'élagage. La méthode d'élagage efficace qu'ils ont utilisée peut être utilisée pour développer des LLM plus petits mais toujours compétitifs en termes de performances, et la formation nécessite beaucoup moins d'effort de calcul qu'une formation à partir de zéro.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

  • Adresse papier : https://arxiv.org/abs/2310.06694
  • Adresse code : https://github.com/princeton-nlp/LLM-Shearing
  • ModelsSheared-LLaMA -1.3B, Sheared-LLaMA-2.7B

Avant d'élaguer LLM, les chercheurs ont identifié deux défis techniques clés. L'un est de savoir comment déterminer la structure d'élagage finale avec des performances puissantes et un raisonnement efficace. La technologie d'élagage structuré actuelle de LLM n'a pas de structure cible spécifiée, ce qui entraîne des performances et une vitesse d'inférence insatisfaisantes du modèle élagué. Deuxièmement, comment continuer à pré-entraîner le modèle élagué pour atteindre les performances attendues ? Ils ont observé que la formation avec des données brutes de pré-formation entraînait des réductions de pertes différentes selon les domaines par rapport à la formation du modèle à partir de zéro.

Pour relever ces deux défis, les chercheurs ont proposé l'algorithme "LLM - cisaillement". Ce nouvel algorithme d'élagage, appelé « élagage structuré dirigé », élague le modèle source selon une architecture cible spécifiée, qui est déterminée par la configuration du modèle pré-entraîné existant. Ils montrent que la méthode d'élagage recherche les sous-structures dans le modèle source et maximise les performances sous contraintes de ressources. De plus, un algorithme de chargement par lots dynamique est conçu, qui peut charger les données d'entraînement de chaque domaine proportionnellement en fonction du taux de réduction des pertes, utilisant ainsi efficacement les données et accélérant l'amélioration globale des performances.

Enfin, le chercheur a élagué le modèle LLaMA2-7B en deux LLM plus petits, à savoir Sheared-LLaMA-1.3B et Sheared-LLaMA-2.7B, confirmant l'efficacité de leur méthode.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Ils n'ont utilisé que 50 milliards de tokens (soit 5% du budget de pré-formation d'OpenLLaMA) pour l'élagage et la poursuite de la pré-formation, mais pour 11 tâches représentatives en aval (telles que la culture générale, la compréhension écrite et la connaissance du monde) et open Même avec l'ajustement des instructions générées par la formule, les performances de ces deux modèles surpassent toujours les autres LLM populaires de même taille, notamment Pythia, INCITE et OpenLLaMA.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Mais il convient de mentionner que lorsque cet article a publié Sheared-LLaMA-3B, le record du modèle open source 3B le plus puissant avait été battu par StableLM-3B.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

De plus, les trajectoires de performance des tâches en aval indiquent que l'utilisation de davantage de jetons pour entraîner davantage le modèle élagué apportera de plus grands avantages. Les chercheurs n’ont expérimenté qu’avec des modèles comportant jusqu’à 7 milliards de paramètres, mais le cisaillement LLM est très général et peut être étendu à de grands modèles de langage de toute taille dans des travaux futurs.

Introduction à la méthode

Étant donné un grand modèle M_S existant (modèle source), le but de cet article est d'étudier comment générer efficacement un modèle M_T plus petit et plus fort (modèle cible). L'étude estime que cela nécessite deux étapes :

  • La première étape élague M_S à M_T Bien que cela réduise le nombre de paramètres, cela conduit inévitablement à une dégradation des performances
  • La deuxième étape Pré-entraîner en continu ; M_T pour renforcer ses performances. L'élagage structuré peut supprimer un grand nombre de paramètres du modèle, obtenant ainsi l'effet de compresser le modèle et d'accélérer l'inférence. Cependant, les méthodes d’élagage structuré existantes peuvent amener les modèles à s’écarter des configurations architecturales conventionnelles. Par exemple, la méthode CoFiPruning produit des modèles avec des configurations de couches non uniformes, ce qui entraîne une surcharge d'inférence supplémentaire par rapport aux configurations de couches unifiées standard.

Cet article étend CoFiPruning pour permettre l'élagage du modèle source sur n'importe quelle configuration cible spécifiée. Par exemple, cet article utilise l'architecture INCITE-Base-3B comme structure cible lors de la génération du modèle 2.7B.
De plus, cet article apprend également un ensemble de masques d'élagage (masques d'élagage) sur les paramètres du modèle de différentes granularités. Les variables de masque sont les suivantes :

Chaque variable de masque contrôle s'il faut élaguer ou sous-structures pertinentes. sont préservés. Par exemple, si le z^layer correspondant= 0, ce calque doit être supprimé. La figure 2 ci-dessous illustre comment les masques d'élagage contrôlent quelles structures sont élaguées.

Après l'élagage, nous finalisons l'architecture élaguée en conservant les composants les plus performants liés aux variables de masque dans chaque sous-structure, et continuons à pré-élaguer le modèle élagué à l'aide du train d'objectifs de modélisation du langage.

Chargement dynamique par lotsPour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-ShearingCette étude estime qu'une pré-formation approfondie des modèles élagués est nécessaire afin de restaurer les performances du modèle.


Inspiré par d'autres recherches, cet article propose un algorithme plus efficace, le chargement dynamique par lots, qui peut simplement ajuster dynamiquement l'échelle du domaine en fonction des performances du modèle. L'algorithme est le suivant :
Expériences et résultats

Configuration du modèle : Cet article utilise le modèle LLaMA2-7B comme modèle source, puis mène des expériences d'élagage structurées. Ils ont compressé LLaMA2-7B en. deux plus petits. La taille cible est de 2,7B et 1,3B, et les performances du modèle cisaillé sont comparées à des modèles de même taille, notamment OPT-1.3B, Pythia-1.4B, OPT-2.7B, Pythia-2.8. B, INCITE-Base-3B, OpenLLaMA-3B-v1, OpenLLaMA-3B-v2. Le tableau 8 résume les détails de l'architecture du modèle pour tous ces modèles.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-ShearingDonnées : Les données d'entraînement de LLaMA2 n'étant pas accessibles au public, cet article utilise l'ensemble de données RedPajama. Le tableau 1 fournit les données de pré-formation utilisées par le modèle de cet article et le modèle de base.

Formation : Les chercheurs ont utilisé jusqu'à 16 GPU Nvidia A100 (80 Go) dans toutes les expériences.

SHEARED-LLAMA surpasse les LM de taille comparablePour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-ShearingCet article montre que Sheared-LLaMA surpasse considérablement les LLM existants de taille similaire tout en n'utilisant qu'une fraction du budget de calcul pour entraîner à partir de zéro ces modèles.


Tâches en aval : le tableau 2 montre les performances sans tir et en quelques tirs de Sheared-LLaMA et des modèles pré-entraînés existants de taille similaire sur les tâches en aval.
Optimisation des instructions : comme le montre la figure 3, le Sheared-LLaMA optimisé pour les instructions atteint un taux de victoire plus élevé par rapport à tous les autres modèles pré-entraînés de la même échelle.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

La figure 4 montre que le modèle INCITEBase-3B démarre avec une précision beaucoup plus élevée, mais que ses performances se stabilisent au cours du processus de pré-entraînement en cours.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Analyse

Enfin, le chercheur a analysé les avantages de cette méthode.

Efficacité du chargement dynamique par lots

Parmi eux, les chercheurs analysent l'efficacité du chargement dynamique par lots sous les trois aspects suivants : (1) perte finale de LM inter-domaines, (2) utilisation des données pour chaque domaine tout au long du processus de formation, (3) exécution des tâches en aval. Les résultats sont basés sur l'algorithme Sheared-LaMA-1.3B.

Différence de perte entre domaines. Le but du chargement dynamique par lots est d'équilibrer le taux de réduction des pertes de chaque domaine afin que la perte atteigne la valeur de référence à peu près dans le même temps. La différence entre la perte du modèle (chargement par lots d'origine et chargement par lots dynamique) et la perte de référence est représentée dans la figure 5. En revanche, le chargement par lots dynamique réduit la perte de manière uniforme et la différence de perte entre les domaines est également très similaire, ce qui montre que les données Utilisation plus efficace.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Utilisation des données. Le tableau 3 compare les proportions de données brutes de RedPajama et l'utilisation des données de domaine chargées dynamiquement (la figure 7 montre les changements dans les pondérations de domaine tout au long du processus de formation). Le chargement groupé dynamique augmente le poids des domaines Book et C4 par rapport aux autres domaines, ce qui indique que ces domaines sont plus difficiles à récupérer à partir du modèle élagué.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Performances en aval. Comme le montre la figure 6, le modèle élagué formé à l'aide du chargement dynamique par lots a obtenu de meilleures performances en aval par rapport au modèle formé sur la distribution RedPajama d'origine. Cela suggère que la réduction plus équilibrée des pertes provoquée par le chargement dynamique des lots peut améliorer les performances en aval.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Comparaison avec d'autres méthodes d'élagage

De plus, les chercheurs ont comparé la méthode de tonte LLM avec d'autres méthodes d'élagage et ont signalé la perplexité de validation, qui est une mesure de la capacité globale du modèle et un indicateur puissant.

En raison de limitations de calcul, les expériences suivantes contrôlent le budget de calcul total de toutes les méthodes comparées au lieu d'exécuter chaque méthode jusqu'à la fin.

Comme le montre le tableau 4, sous la même parcimonie, le débit d'inférence du modèle d'élagage cible dans cet article est supérieur au modèle d'élagage non uniforme CoFiPruning, mais la perplexité est légèrement plus élevée.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Autre analyse

Le tableau 5 montre que l'augmentation des frais généraux d'élagage peut améliorer continuellement la perplexité tout en contrôlant le nombre total de jetons. Cependant, comme l’élagage coûte plus cher que la pré-formation continue, les chercheurs allouent 0,4 milliard de jetons à l’élagage.

Pour vous apprendre à tondre lalpaga étape par étape, léquipe de Chen Danqi a proposé la méthode de taille grand modèle LLM-Shearing

Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

See all articles