La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
L'auteur Zeng Qiulin est diplômé de l'Institut de technologie de Harbin et a obtenu une maîtrise de l'Université nationale de Singapour. Sous la direction du professeur Wang Bo et de l'académicien Ling Xiaofeng, au cours de sa période de doctorat, il a principalement mené des recherches théoriques de démonstration, de méthode et d'application sur la distribution des changements d'heure aléatoires. Actuellement, il a publié de nombreux articles académiques dans ICLR/AAAI/IEEE TNNLS.
Page d'accueil personnelle : https://hardworkingpearl.github.io/
Dans les applications d'apprentissage automatique du monde réel, les changements de distribution au fil du temps sont un problème courant. Cette situation est définie comme une généralisation de domaine variable dans le temps (EDG), où l'objectif est de permettre au modèle de bien se généraliser à des domaines cibles invisibles dans des systèmes variables dans le temps en apprenant des modèles évolutifs sous-jacents dans tous les domaines et en exploitant ces modèles. Cependant, en raison du nombre limité d'horodatages dans l'ensemble de données EDG, les méthodes existantes rencontrent des difficultés pour capturer la dynamique évolutive et éviter le surajustement à des horodatages clairsemés, ce qui limite leur généralisation et leur adaptabilité à de nouvelles tâches.
Pour résoudre ce problème, nous proposons une nouvelle méthode SDE-EDG, qui collecte la trajectoire d'évolution de la grille de subdivision infinie (IFGET) de la distribution des données en interpolant continuellement des échantillons pour surmonter le problème de surajustement. De plus, en exploitant la capacité inhérente des équations différentielles stochastiques (SDE) à capturer des trajectoires continues, nous proposons d'aligner les trajectoires modélisées par les SDE avec celles de l'IFGET grâce à une estimation du maximum de vraisemblance, permettant ainsi de capturer les tendances d'évolution de la distribution.
Titre de l'article : Apprentissage de trajectoire latente pour des horodatages limités sous changement de distribution au fil du temps
Lien de l'article : https://openreview.net/pdf?id=bTMMNT7IdW
Lien du projet : https : //github.com/HardworkingPearl/SDE-EDG-iclr2024
Method
Core Idea
Pour surmonter ce défi, SDE-EDG propose une nouvelle approche en construisant des segments infinis, une trajectoire évolutive à grille infiniment fine (IFGET) crée des échantillons interpolés consécutifs dans l'espace de représentation latente pour combler l'écart entre les horodatages. De plus, SDE-EDG utilise la capacité inhérente des équations différentielles stochastiques (SDE) à capturer la dynamique de trajectoire continue et aligne les trajectoires modélisées par SDE avec IFGET via le régulariseur d'alignement de chemin, réalisant ainsi une capture inter-domaines des tendances de distribution en évolution.
Détails de la méthode
1. Construction d'IFGET :
Tout d'abord, SDE-EDG établit une correspondance d'échantillon à échantillon pour chaque échantillon dans l'espace de représentation latente et collecte la trajectoire d'évolution de chaque échantillon individuel. Pour tout échantillon de chaque catégorie k à l'instant , nous recherchons le plus proche de celle-ci dans l'espace des fonctionnalités à l'instant et son échantillon correspondant dans :
Voici le calcul de la distance entre deux vecteurs, est l'ensemble des échantillons échantillonnés dans le champ suivant .
Cette correspondance est ensuite exploitée pour générer des échantillons interpolés consécutifs, visant à relier les écarts de temps entre les intervalles d'horodatage et à éviter le surajustement vers des horodatages clairsemés,
iciéchantillonnés à partir de la distribution Beta. En collectant les traces temporelles des échantillons générés de la manière ci-dessus, nous obtenons IFGET.
2. Modéliser des trajectoires à l'aide de SDE :
SDE-EDG adopte le SDE neuronal pour modéliser la trajectoire temporelle continue des données dans l'espace latent. Contrairement aux modèles traditionnels basés sur un horodatage discret, SDE convient naturellement à la simulation de trajectoires temporelles continues. SDE-EDG modélise les trajectoires des séries chronologiques et peut prédire des échantillons à tout moment futur grâce à des échantillons à un moment :
Ici, la variable d'espace de caractéristiques est prédite à partir d'échantillons à un moment , est la fonction de dérive, et est fonction de diffusion.
3. Alignement du chemin et estimation du maximum de vraisemblance :
SDE-EDG entraîne le modèle en maximisant l'estimation de la vraisemblance de IFGET,
La fonction d'entraînement finale est , et le premier terme est la perte d'erreur de la tâche de classification de prédiction. fonction .
4. Expérimentez
Le tableau suivant montre la comparaison de l'exactitude de la classification entre SDE-EDG et d'autres méthodes de base sur plusieurs ensembles de données. Ces ensembles de données incluent Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS) et Ocular Disease (OD). Les résultats montrent que SDE-EDG surpasse en moyenne les autres méthodes sur tous les ensembles de données.
La figure ci-dessous fournit une comparaison intuitive, montrant la différence de représentation des caractéristiques entre l'algorithme SDE-EDG (à gauche) et la méthode DG traditionnelle IRM (à droite). Grâce à la visualisation de l'espace des caractéristiques des données, nous pouvons observer que la représentation des caractéristiques apprise par SDE-EDG a des limites de décision évidentes, dans lesquelles les points de données de différentes catégories sont clairement distingués et représentés par différentes formes, et les données de différents domaines sont représentées par barres arc-en-ciel. Cela démontre que SDE-EDG est capable de capturer avec succès la dynamique de l'évolution des données au fil du temps et de maintenir la séparabilité des classes dans l'espace des fonctionnalités. En revanche, la représentation des caractéristiques de l'IRM a tendance à regrouper les points de données dans une seule direction, ce qui entraîne des limites de décision peu claires, ce qui reflète l'incapacité de l'IRM à capturer les tendances de distribution variables dans le temps.
La figure suivante démontre en profondeur à travers une série de sous-figures les avantages de l'algorithme SDE-EDG dans sa capacité à capturer l'évolution des données au fil du temps. La sous-figure (a) fournit la véritable distribution des étiquettes de l'ensemble de données Sine, où les exemples positifs et négatifs sont représentés par des points de couleurs différentes, fournissant une base de référence pour les comparaisons ultérieures. Ensuite, les sous-figures (b) et (c) montrent respectivement les résultats de prédiction de la méthode traditionnelle basée sur l'ERM et l'algorithme SDE-EDG sur le même ensemble de données. Par comparaison, nous pouvons voir les avantages évidents de SDE-EDG pour capturer le. modèle d'évolution des données. Les sous-figures (d) et (e) révèlent en outre le chemin d'évolution appris par SDE-EDG, où (d) montre le chemin après application de la perte d'alignement de chemin (fonction de perte de vraisemblance maximale), tandis que (e) montre le chemin sans le chemin lorsque en appliquant cette perte. À partir de cette comparaison, on peut intuitivement voir l’importance de la perte d’alignement de chemin pour garantir que le modèle peut correctement capturer et caractériser les changements de données au fil du temps.
Le sous-graphique suivant (a) montre la trajectoire de convergence de précision lors de l'utilisation de différents algorithmes pour la formation sur l'ensemble de données Portraits. Cette sous-figure fournit une perspective intuitive pour comparer la façon dont les performances de l'algorithme SDE-EDG changent avec d'autres méthodes de base (telles que ERM, MLDG, GI) pendant la formation. En observant la tendance croissante de la précision de l’entraînement au fil du temps, nous pouvons évaluer la capacité d’apprentissage et la vitesse de convergence de différents algorithmes. La trajectoire de convergence de l'algorithme SDE-EDG présente un intérêt particulier car elle révèle l'efficacité et la stabilité de l'algorithme pour s'adapter à l'évolution des distributions de données.
Les sous-figures suivantes (b) et (c) montrent respectivement les ensembles de données RMNIST et Circle. Les performances de l'algorithme SDE-EDG sur ces ensembles de données montrent sa supériorité dans le traitement des distributions variables dans le temps, même en face A élevé. la précision peut également être maintenue pour des domaines cibles sur une période plus longue, ce qui démontre la puissante capacité de l'algorithme SDE-EDG à capturer et à s'adapter aux modèles d'évolution des données.
Les sous-figures suivantes (d) et (e) explorent l'impact de la perte de vraisemblance maximale sur les performances de SDE-EDG sur les ensembles de données RMNIST et PowerSupply. En modifiant la valeur du poids de régularisation α, ces deux sous-tracés démontrent l'impact spécifique des différents paramètres α sur les performances du modèle. Les résultats expérimentaux montrent que des valeurs α appropriées peuvent améliorer considérablement les performances de SDE-EDG sur des ensembles de données spécifiques, ce qui souligne l'importance d'ajuster les hyperparamètres en fonction des caractéristiques de l'ensemble de données et des exigences des tâches dans les applications pratiques.
Conclusion
L'auteur de l'article a proposé une nouvelle méthode SDE-EDG pour modéliser les problèmes de généralisation de domaine variable dans le temps (EDG). Le procédé consiste à construire un IFGET en identifiant des correspondances d'échantillon à échantillon et en générant des échantillons interpolés consécutifs. Par la suite, les auteurs ont pris des équations différentielles stochastiques (SDE) et les ont alignées sur IFGET pour la formation. La contribution de l'article est de révéler l'importance de capturer les modèles évolutifs en collectant les trajectoires temporelles des individus et en interpolant entre les intervalles de temps pour atténuer le problème d'un nombre limité d'horodatages sources, ce qui empêche efficacement SDE-EDG d'avoir un nombre limité. d'horodatages.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!