Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Cela semble être le cas : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques.
Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre d'occurrence.
L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux dépendances séquentielles dans les données de séries chronologiques. Cette hypothèse n’est pas surprenante, car les modèles de langage sont désormais les plus populaires dans le domaine de l’apprentissage automatique.
Alors, quelle aide les modèles de langage peuvent-ils apporter aux tâches de timing traditionnelles ?
Récemment, une équipe de l'Université de Virginie et de l'Université de Washington a tenté de répondre à cette question et a finalement fait une proposition simple mais importante : pour les tâches de prédiction de séries chronologiques, les performances des méthodes courantes utilisant des modèles de langage sont proches, voire pires. que la méthode d'ablation de base, mais la première nécessite plusieurs ordres de grandeur de calculs supplémentaires que la seconde.
Titre de l'article : Les modèles linguistiques sont-ils réellement utiles pour la prévision des séries chronologiques ?
Adresse de l'article : https://arxiv.org/pdf/2406.16964
Ces résultats ont été obtenus par l'équipe grâce à un grand nombre de recherches sur l’ablation, qui révèlent une « tendance inquiétante » dans les recherches actuelles sur la prévision des séries chronologiques.
Mais l'équipe a également déclaré : « Notre objectif n'est pas de laisser entendre que les modèles de langage ne pourront jamais être utilisés pour les séries temporelles. En fait, certaines études récentes ont montré qu'il existe un bon potentiel d'interaction entre le langage et les séries temporelles pour gérer le temps. » raisonnement en série et tâches telles que la compréhension sociale.
Au lieu de cela, leur objectif est de mettre en évidence cette découverte surprenante : pour les tâches de séries temporelles existantes, les méthodes existantes utilisent peu les capacités de raisonnement innées des modèles de langage pré-entraînés.
Configuration expérimentale
L'équipe a utilisé trois méthodes de prédiction de séries chronologiques de pointe et a proposé trois méthodes d'ablation pour LLM : sans LLM, LLM2Attn, LLM2Trsf.
Pour évaluer l'efficacité du LLM sur les tâches de prévision de séries chronologiques, ils ont testé ces méthodes sur 8 ensembles de données standards.
Méthodes de référence pour les modèles linguistiques et les séries chronologiques
Ils ont expérimenté trois méthodes récentes de prévision de séries chronologiques à l'aide de LLM. Voir le tableau 2. Le modèle de base utilisé par ces méthodes est GPT-2 ou LLaMA, et différentes stratégies d'alignement et de réglage sont utilisées.
OneFitsAll : La méthode OneFitsAll (parfois également appelée GPT4TS) utilise d'abord des techniques de normalisation et de correction d'instance sur la série temporelle d'entrée, puis la transmet à une couche linéaire pour obtenir la représentation d'entrée du modèle de langage. Pendant la formation, les couches d'attention multi-têtes et de feed-forward du modèle de langage sont gelées, tandis que les intégrations de position et la normalisation des couches sont optimisées. Le rôle de la couche finale est de convertir l’état caché final du modèle de langage en résultats de prédiction.
Time-LLM : lors de l'utilisation de Time-LLM, la série chronologique d'entrée est tokenisée par la technique de patching et l'attention multi-têtes l'aligne avec la représentation de faible dimension de l'intégration de mots. Le résultat de ce processus d'alignement est ensuite transmis à un modèle de langage pré-entraîné gelé avec une intégration de fonctionnalités statistiques descriptives. La représentation de sortie de ce modèle de langage est ensuite aplatie et passée à travers une couche linéaire, aboutissant à des prédictions.
LLaTA : La façon dont LLaTA intègre la série temporelle d'entrée consiste à traiter chaque canal comme un jeton. La moitié de l'architecture est la « branche de texte », qui utilise une attention croisée pour aligner la représentation des séries chronologiques avec la représentation de faible dimension des intégrations de mots du modèle de langage. Cette représentation est ensuite transmise à un modèle de langage gelé pré-entraîné, aboutissant à une « prédiction textuelle ». Dans le même temps, la branche « temporelle » de l'architecture apprend un adaptateur de bas rang pour le modèle de langage pré-entraîné sur la base de la série temporelle d'entrée, obtenant ainsi une « prédiction temporelle » pour l'inférence. Le modèle contient un terme de perte supplémentaire qui prend en compte la similitude entre ces représentations.
Méthodes d'ablation proposées par l'équipe
Pour les prédicteurs basés sur LLM, afin d'isoler l'impact du LLM, l'équipe a proposé trois méthodes d'ablation : supprimer le composant LLM ou le remplacer par un simple module.
Plus précisément, pour chacune des trois méthodes ci-dessus, ils ont apporté les trois modifications suivantes :
sans LLM, voir Figure 1b. Supprimez entièrement le modèle de langage et transmettez le jeton d'entrée directement à la couche finale de la méthode de référence.
LLM2Attn, voir Figure 1c. Remplacez le modèle de langage par une seule couche d'attention multi-têtes initialisée de manière aléatoire.
LLM2Trsf, voir Figure 1d. Remplacez le modèle de langage par un seul module Transformer initialisé de manière aléatoire.
Dans l'étude d'ablation ci-dessus, le reste du prédicteur reste inchangé (entraînable). Par exemple, comme le montre la figure 1b, après avoir supprimé le LLM, le codage d'entrée est transmis directement à la carte de sortie. Et comme le montrent les figures 1c et 1d, après avoir remplacé le LLM par attention ou Transformer, ils sont formés avec la structure restante de la méthode d'origine.
Ensembles de données et mesures d'évaluation
Ensembles de données de référence. L'évaluation utilise les ensembles de données réels suivants : ETT (qui contient 4 sous-ensembles : ETTm1, ETTm2, ETTh1, ETTh2), Maladie, Météo, Trafic, Électricité. Le tableau 1 donne les statistiques de ces ensembles de données. Sont également disponibles le taux de change, les décès dus au Covid, le taxi (30 min), le NN5 (quotidien) et le FRED-MD.
Indicateurs d'évaluation. Les mesures d'évaluation rapportées dans cette étude sont l'erreur absolue moyenne (MAE) et l'erreur quadratique moyenne (MSE) entre les valeurs de séries chronologiques prédites et réelles.
Résultats
Plus précisément, l'équipe a exploré les questions de recherche (RQ) suivantes :
(RQ1) Les modèles linguistiques pré-entraînés peuvent-ils aider à améliorer les performances de prédiction ?
(RQ2) Les méthodes basées sur le LLM valent-elles le coût de calcul qu'elles consomment ?
(RQ3) La pré-formation des modèles de langage aide-t-elle à la performance des tâches de prédiction ?
(RQ4) LLM peut-il caractériser des dépendances séquentielles dans des séries temporelles ?
(RQ5) Le LLM aide-t-il à apprendre en quelques coups ?
(RQ6) D'où vient la performance ?
Les modèles linguistiques de pré-entraînement contribuent-ils à améliorer les performances de prédiction ? (RQ1)
Les résultats expérimentaux montrent que le LLM pré-entraîné n'est pas encore très utile pour les tâches de prévision de séries chronologiques.
Globalement, comme le montre le tableau 3, sur 8 ensembles de données et 2 indicateurs, la méthode d'ablation est meilleure que la méthode Time-LLM dans 26/26 cas et surpasse la méthode Time-LLM dans 22/ 26 cas Mieux que LLaTA et mieux que OneFitsAll dans 19/26 cas.
En conclusion, il est difficile de dire que le LLM peut être utilisé efficacement pour la prévision de séries chronologiques.
Les méthodes basées sur le LLM valent-elles le coût de calcul qu'elles consomment ? (RQ2)
Ici, l'intensité de calcul de ces méthodes est évaluée en fonction de leurs performances nominales. Les modèles linguistiques de l’approche de référence utilisent des centaines de millions, voire des milliards de paramètres pour effectuer des prédictions de séries chronologiques. Même lorsque les paramètres de ces modèles de langage sont figés, ils nécessitent toujours une surcharge de calcul importante lors de la formation et de l'inférence.
Par exemple, Time-LLM a 6642 M de paramètres et prend 3003 minutes pour terminer l'entraînement sur l'ensemble de données météorologiques, tandis que la méthode d'ablation n'a que 0,245 M de paramètres et le temps d'entraînement moyen n'est que de 2,17 minutes. Le tableau 4 donne des informations sur la formation d'autres méthodes sur les ensembles de données ETTh1 et Weather.
En ce qui concerne le temps d'inférence, l'approche ici consiste à diviser par la taille maximale du lot pour estimer le temps d'inférence par exemple. En moyenne, Time-LLM, OneFitsAl et LLaTA prennent 28,2, 2,3 et 1,2 fois plus de temps d'inférence par rapport au modèle modifié.
La figure 3 donne quelques exemples où les marqueurs verts (méthodes d'ablation) sont généralement inférieurs aux marqueurs rouges (LLM) et concentrés sur le côté gauche, ce qui illustre qu'ils sont moins coûteux en calcul mais ont de meilleures performances de prédiction.
En bref, dans les tâches de prédiction de séries chronologiques, l'intensité de calcul du LLM ne peut pas apporter les améliorations de performances correspondantes.
La pré-formation des modèles de langage aide-t-elle à l'exécution des tâches de prédiction ? (RQ3)
Les résultats de l'évaluation montrent que pour les tâches de prévision de séries chronologiques, une pré-formation avec de grands ensembles de données n'est vraiment pas nécessaire. Afin de tester si les connaissances acquises au cours de la pré-formation peuvent apporter des améliorations significatives aux performances de prédiction, l'équipe a expérimenté les effets de différentes combinaisons de pré-formation et de réglage fin de LLaTA sur des données de séries chronologiques.
Pré-formation + réglage fin (Pre+FT) : Il s'agit de la méthode originale, qui consiste à affiner un modèle de langage pré-entraîné sur des données de séries chronologiques. Pour LLaTA ici, l'approche consiste à geler le modèle de langage de base et à apprendre un adaptateur de bas rang (LoRA).
Initialisation aléatoire + réglage fin (woPre+FT) : les connaissances textuelles obtenues lors de la pré-formation aident-elles à la prédiction de séries chronologiques ? Ici, les poids du modèle linguistique sont initialisés de manière aléatoire (éliminant ainsi les effets de la pré-formation) et le LLM est formé à partir de zéro sur l'ensemble de données affiné.
Pré-entraînement + pas de réglage fin (Pré+woFT) : dans quelle mesure le réglage fin des données de séries chronologiques peut-il apporter aux performances de prédiction ? Ici, nous gelons le modèle de langage et abandonnons l'apprentissage de LoRA. Cela peut refléter les performances du modèle de langage lui-même dans le traitement des séries temporelles.
Initialisation aléatoire + pas de réglage fin (woPre+woFT) : Évidemment, il s'agit de projeter aléatoirement la série chronologique d'entrée sur un résultat prévu. Les résultats ont été utilisés comme base de comparaison avec d’autres méthodes.
Les résultats globaux sont présentés dans le tableau 5. Sur 8 ensembles de données, selon les indicateurs MAE et MSE, « pré-entraînement + réglage fin » a obtenu les meilleurs résultats à trois reprises, tandis que « initialisation aléatoire + réglage fin » a obtenu les huit meilleurs résultats. Cela montre que la connaissance de la langue est d’une aide limitée pour la prévision des séries chronologiques. Cependant, « pré-formation + pas de réglage fin » et la ligne de base « initialisation aléatoire + pas de réglage fin » ont respectivement 5 et 0 meilleurs résultats, ce qui montre que la connaissance de la langue n'aide pas beaucoup dans le processus de réglage fin.
En bref, les connaissances textuelles acquises par la pré-formation sont d'une aide limitée pour la prédiction de séries chronologiques.
LLM peut-il caractériser les dépendances séquentielles dans des séries chronologiques ? (RQ4)
La plupart des méthodes de prévision de séries chronologiques qui utilisent LLM pour affiner l'encodage positionnel sont utiles pour comprendre la position des pas de temps dans la séquence. L’équipe prédit que pour un modèle de série chronologique avec une excellente représentation des emplacements, si les emplacements d’entrée sont brouillés, ses performances de prédiction chuteront considérablement. Ils ont expérimenté trois méthodes de brouillage des données de séries chronologiques : mélanger aléatoirement la séquence entière (sf-all), mélanger aléatoirement uniquement la première moitié de la séquence (sf-half) et échanger la première et la seconde moitié de la séquence (ex- moitié). . Les résultats sont présentés dans le tableau 6.
L'impact du brassage des entrées sur les méthodes basées sur LLM est similaire à sa méthode d'ablation. Cela montre que LLM n'a pas de capacité exceptionnelle à caractériser les dépendances séquentielles dans des séries chronologiques.
Le LLM aide-t-il à apprendre en quelques coups ? (RQ5)
Les résultats de l'évaluation montrent que le LLM a peu d'importance pour les scénarios d'apprentissage en quelques étapes.
Leur expérience d'évaluation consistait à prendre 10 % de chaque ensemble de données et à recycler le modèle et sa méthode d'ablation. Plus précisément, LLaMA (Time-LLM) est évalué ici. Les résultats sont présentés dans le tableau 7.
On peut voir que les performances avec et sans LLM sont similaires - chacun a 8 cas qui fonctionnent mieux. L’équipe a également mené des expériences similaires en utilisant la méthode LLaTA basée sur GPT-2. Les résultats sont présentés dans le tableau 8, où la méthode d'ablation fonctionne mieux que LLM dans le scénario à quelques échantillons.
D'où vient la performance ? (RQ6)
Cette section évalue les techniques de codage couramment utilisées dans les modèles de séries chronologiques LLM. Il s’avère que combiner les correctifs et l’attention monocouche est une option simple mais efficace.
Il a été constaté précédemment que la simple ablation de la méthode basée sur LLM ne réduit pas ses performances. Pour comprendre la cause de ce phénomène, l’équipe a étudié certaines techniques d’encodage couramment utilisées dans les tâches de séries chronologiques LLM, telles que l’application de correctifs et la décomposition. Un module Transformer de base est également disponible pour faciliter l'encodage.
Il a été constaté qu'une structure combinant patching et attention surpasse la plupart des autres méthodes d'encodage sur de petits ensembles de données (moins de 1 million d'horodatages), et est même comparable à la méthode LLM.
La structure détaillée est présentée dans la figure 4, qui implique l'application d'une « normalisation d'instance » aux séries chronologiques, suivie d'un correctif et d'une projection. Ensuite, une couche d’attention est utilisée entre les correctifs pour l’apprentissage des fonctionnalités. Pour des ensembles de données plus volumineux tels que le trafic (~ 15 millions) et l'électricité (~ 8 millions), les performances d'encodage d'un modèle linéaire monocouche utilisant un transformateur de base sont meilleures. Dans ces méthodes, une seule couche linéaire est finalement utilisée pour projeter l’intégration de la série chronologique afin d’obtenir les résultats de prédiction.
En bref, le patching est très important pour le codage. De plus, les modules d'attention de base et Transformer peuvent également aider efficacement au codage.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!