Aujourd'hui, je vous présente un article publié par NTU en avril de cette année. Il traite principalement des différences dans les effets de la prédiction indépendante (indépendante du canal) et de la prédiction conjointe (dépendante du canal) dans les problèmes de prédiction de séries chronologiques multivariées, ainsi que des raisons qui les sous-tendent. , et leur méthode d'optimisation.
Titre de l'article : Le compromis entre capacité et robustesse : revisiter la stratégie indépendante des canaux pour la prévision de séries chronologiques multivariées# 🎜🎜#
Adresse de téléchargement : https://arxiv.org/pdf/2304.05206v1.pdf1 Prévisions indépendantes et prévisions conjointesSéries chronologiques multiples. Dans les problèmes de prévision, il existe deux types du point de vue des méthodes de modélisation multivariées. L'un est la prévision indépendante du canal (indépendant du canal, CI), qui fait référence au traitement des séquences multivariées comme plusieurs prévisions univariées, et l'autre est modélisée séparément. est une prédiction conjointe (dépendante du canal, CD), qui fait référence à la modélisation de plusieurs variables ensemble et à la prise en compte de la relation entre chaque variable. La différence entre les deux est indiquée ci-dessous. Les deux méthodes ont leurs propres caractéristiques : la méthode CI ne considère qu'une seule variable, le modèle est plus simple, mais le plafond est également inférieur, car la relation entre chaque séquence n'est pas prise en compte et certaines informations clés sont perdues tandis que la méthode CD prend en compte des informations plus complètes, mais le modèle est également plus complexe ; 2. Quelle méthode est la meilleureRéalisez d'abord une expérience comparative détaillée et utilisez des modèles linéaires pour observer les performances de la méthode CI et de la méthode CD sur plusieurs effet des ensembles de données pour déterminer quelle méthode est la meilleure. Dans les expériences présentées dans cet article, la principale conclusion est que la méthode CI montre de meilleures performances sur la plupart des tâches et une plus grande stabilité des effets. Comme le montre l'image ci-dessous, les indicateurs MAE, MSE et autres de CI sont fondamentalement plus petits que CD dans chaque ensemble de données, et la fluctuation de l'effet est également plus petite. Comme le montrent les résultats expérimentaux ci-dessous, CI se compare à CD dans la plupart des longueurs de fenêtre de prédiction et sur le ensemble de données, les effets sont améliorés. Pourquoi la méthode CI est-elle meilleure et plus stable que le CD dans les applications pratiques ? L'article a effectué quelques preuves théoriques et la conclusion principale est que la dérive de distribution existe souvent dans les données réelles, et que l'utilisation de méthodes CI peut aider à atténuer ce problème et à améliorer la généralisation du modèle. L'image ci-dessous montre la distribution de l'ACF (coefficient d'autocorrélation, reflétant la relation entre les séquences futures et les séquences historiques) de chaque ensemble de données et ensemble de tests au fil du temps. On peut voir que la dérive de distribution est répandue dans divers ensembles de données (c'est-à-dire). l'ACF de la rame est différent de l'ACF de l'ensemble de test, c'est-à-dire que la relation entre l'historique et la séquence future des deux est différente). L'article prouve par la théorie que CI est efficace pour atténuer la dérive de distribution. Le choix entre CI et CD est A. compromis entre la capacité du modèle et la robustesse du modèle. Bien que le modèle CD soit plus complexe, il est également plus sensible aux changements de distribution. Ceci est en fait similaire à la relation entre la capacité du modèle et la généralisation du modèle. Plus le modèle est complexe, plus les échantillons de l'ensemble d'apprentissage auxquels le modèle s'adapte sont précis, mais la généralisation est mauvaise une fois la différence de distribution entre l'ensemble d'apprentissage et l'ensemble de test. est important, l'effet sera pire. 3. Comment optimiser Concernant le problème de modélisation du CD, l'article propose quelques méthodes d'optimisation qui peuvent aider le modèle de CD à être plus robuste. Régularisation : introduisez une perte de régularisation, utilisez la séquence moins le point d'échantillonnage le plus proche comme modèle d'entrée de séquence historique pour la prédiction et utilisez des contraintes de lissage pour prédire que les résultats s'écartent des observations voisines les plus proches. Pas trop. grand, ce qui rend les résultats estimés plus plats ; Deux matrices d'ordre inférieur équivalent à réduire la capacité du modèle, à atténuer les problèmes de surajustement et à améliorer la robustesse du modèle Fonction de perte : MAE est utilisé à la place de MSE pour ; réduire la sensibilité du modèle aux valeurs aberrantes ;Longueur de la séquence historique d'entrée : pour le modèle CD, plus la séquence historique d'entrée est longue, l'effet peut être réduit. Cela est également dû au fait que plus la séquence historique est longue, plus. le modèle est sensible à l'influence du changement de distribution. Pour le modèle CI, l'augmentation de la longueur de la séquence historique peut améliorer de manière plus stable l'effet de prédiction.
La méthode mentionnée ci-dessus pour améliorer le modèle CD a été testée sur plusieurs ensembles de données. Par rapport au CD, une amélioration de l'effet relativement stable a été obtenue, indiquant que la méthode ci-dessus est relativement efficace pour améliorer la robustesse du multivarié. prédiction de séquence. Les résultats expérimentaux montrent que des facteurs tels que la décomposition de bas rang, la longueur historique de la fenêtre et le type de fonction de perte sont également répertoriés dans l'article en termes d'influence sur l'effet.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!