


Comment GNN modélise-t-il les informations spatio-temporelles ? Une revue du 'Réseau neuronal à graphes spatio-temporels' à l'Université Queen Mary de Londres, une brève explication de la méthode du réseau neuronal à graphes spatio-temporels
Ces algorithmes puissants ont suscité un énorme intérêt au cours des dernières années. Cependant, ces performances reposent sur l’hypothèse d’une structure de graphe statique, ce qui limite les performances des réseaux de neurones graphiques lorsque les données changent au fil du temps. Le réseau neuronal graphique séquentiel est une extension du réseau neuronal graphique qui prend en compte les facteurs temporels.
Ces dernières années, divers algorithmes de réseaux neuronaux à graphes séquentiels ont été proposés et ont atteint des performances supérieures à d'autres algorithmes d'apprentissage en profondeur dans de multiples applications liées au temps. Cette revue aborde des sujets intéressants liés aux réseaux de neurones à graphes spatio-temporels, notamment les algorithmes, les applications et les défis ouverts.
Adresse papier : https://www.php.cn/link/1915523773b16865a73a38acc952ccda
1 Introduction
Le réseau neuronal graphique (GNN) est un type de modèle d'apprentissage en profondeur spécifiquement conçu pour traiter les données de structures graphiques. . Ces modèles exploitent la topologie du graphe pour apprendre des représentations significatives des nœuds et des bords du graphe. Les réseaux de neurones graphiques sont une extension des réseaux de neurones convolutifs traditionnels et se sont révélés efficaces dans des tâches telles que la classification de graphiques, la classification de nœuds et la prédiction de liens. L’un des principaux avantages des GNN est qu’ils conservent de bonnes performances même lorsque la taille du graphe sous-jacent augmente, car le nombre de paramètres apprenables est indépendant du nombre de nœuds dans le graphe. Les réseaux de neurones graphiques (GNN) ont été largement utilisés dans divers domaines tels que les systèmes de recommandation, la découverte et la biologie de médicaments, ainsi que l'allocation de ressources dans les systèmes autonomes. Cependant, ces modèles sont limités aux données graphiques statiques, où la structure graphique est fixe. Ces dernières années, les données graphiques variables dans le temps ont attiré une attention croissante, apparaissant dans divers systèmes et contenant des informations temporelles précieuses. Les applications des données graphiques variables dans le temps incluent les données de séries chronologiques multivariées, les réseaux sociaux, les systèmes audiovisuels, etc.
Pour répondre à ce besoin, une nouvelle famille de GNN a vu le jour : les GNN spatio-temporels, qui prennent en compte à la fois les dimensions spatiales et temporelles des données en apprenant la représentation temporelle de la structure du graphe. Cet article fournit un examen complet des réseaux neuronaux de graphes spatio-temporels de pointe. Cet article commence par un bref aperçu des différents types de réseaux de neurones à graphes spatio-temporels et de leurs hypothèses de base. Les algorithmes spécifiques utilisés dans les GNN spatio-temporels sont étudiés plus en détail, tout en fournissant également une taxonomie utile pour regrouper ces modèles. L'article fournit également un aperçu de diverses applications des GNN spatio-temporels, mettant en évidence les domaines clés dans lesquels ces modèles ont été utilisés pour obtenir des résultats de pointe. Enfin, les défis auxquels est confronté le domaine et les orientations futures de la recherche sont discutés. En conclusion, cette revue vise à fournir une étude complète et approfondie des réseaux de neurones à graphes spatio-temporels, mettant en évidence l'état actuel du domaine, les principaux défis qui doivent encore être relevés et les possibilités futures passionnantes de ces modèles.
2. Algorithme
Le réseau neuronal de graphiques spatio-temporels peut être divisé en deux catégories : basé sur le spectre et basé sur l'espace d'un point de vue algorithmique. Une autre catégorie de classification concerne les méthodes qui introduisent une variation temporelle : un autre algorithme d'apprentissage automatique ou la définition du temps dans une structure graphique.
2.1 Réseau neuronal à graphique spatio-temporel hybride
Le réseau neuronal à graphique spatio-temporel hybride se compose de deux composants principaux : la composante spatiale et la composante temporelle. Dans les réseaux de neurones graphiques spatio-temporels hybrides, les algorithmes de réseaux neuronaux graphiques sont utilisés pour modéliser les dépendances spatiales dans les données.
2.2 Réseau neuronal Solo-Graph
Une autre façon de modéliser le temps dans un réseau neuronal à graphe spatio-temporel consiste à définir le laps de temps dans le GNN lui-même. Diverses méthodes ont été proposées, notamment : définir le temps sous forme d'arêtes, saisir le temps sous forme de signaux dans les GNN, modéliser le temps sous forme de sous-graphes et prendre en sandwich d'autres architectures d'apprentissage automatique dans les GNN (Figure 2).
3. Applications
3.1 Prévision de séries chronologiques multivariables
Inspirés par la capacité des réseaux de neurones graphes à gérer les dépendances relationnelles [10], les réseaux de neurones graphes spatio-temporels sont largement utilisés dans la prévision de séries chronologiques multivariables. Les applications incluent la prévision du trafic, la prévision Covid, la consommation d'énergie photovoltaïque, les communications RSU et les applications sismiques.
3.2 Interaction des personnages
Dans l'apprentissage automatique et la vision par ordinateur, l'apprentissage du domaine spatio-temporel reste un problème très difficile. Le principal défi est de savoir comment modéliser les interactions entre objets et concepts de niveau supérieur dans de grands contextes spatio-temporels [18]. Dans une tâche d’apprentissage aussi difficile, il est crucial de modéliser efficacement les relations spatiales, l’apparence locale ainsi que les interactions et changements complexes au fil du temps. [18] ont introduit un modèle de réseau neuronal à graphe spatio-temporel qui boucle dans l'espace et le temps, adapté pour capturer l'apparence locale et les interactions complexes de haut niveau de différentes entités et objets dans des scènes du monde changeantes [18].
3.3 Représentation graphique dynamique
L'apprentissage de la représentation graphique séquentielle a toujours été considéré comme un aspect très important dans l'apprentissage automatique des graphiques [15,31]. Visant la limitation selon laquelle les méthodes existantes reposent sur des instantanés discrets de diagrammes de séquence et ne peuvent pas capturer de représentations puissantes, [3] a proposé une méthode d'apprentissage de représentation graphique dynamique basée sur des réseaux neuronaux de graphes spatio-temporels. De plus, [15] utilisent désormais le GNN spatio-temporel pour représenter dynamiquement les cartes cérébrales. Suivi multi-cibles Le suivi multi-cibles dans les vidéos repose en grande partie sur la modélisation des interactions spatio-temporelles entre cibles [16]. [16] ont proposé un algorithme de réseau neuronal à graphe spatiotemporel pour modéliser les interactions spatiales et temporelles entre les objets.
3.4 Interprétation de la langue des signes
La langue des signes utilise une méthode visuelle-manuelle pour transmettre du sens et constitue le principal outil de communication pour les groupes sourds et malentendants. Pour combler le fossé de communication entre les utilisateurs de la langue parlée et les utilisateurs de la langue des signes, une technologie d'apprentissage automatique est introduite. Traditionnellement, la traduction automatique neuronale a été largement adoptée, mais des méthodes plus avancées sont nécessaires pour capturer les propriétés spatiales des langues des signes. [13] ont proposé un système de traduction en langue des signes basé sur un réseau neuronal graphique spatio-temporel, qui a une forte capacité à capturer la structure spatio-temporelle de la langue des signes et a obtenu les meilleures performances par rapport à la méthode de traduction automatique neuronale traditionnelle [13] .
Classement de croissance technologique 3.5
Comprendre le taux de croissance de la technologie est une clé essentielle de la stratégie commerciale du département technologique. De plus, prévoir les taux de croissance des technologies et leurs relations les unes avec les autres peut faciliter les décisions commerciales en matière de définition de produits, de stratégies marketing et de R&D. [32] ont proposé une méthode de prédiction du classement de la croissance de la technologie des réseaux sociaux basée sur un réseau neuronal à graphes spatio-temporels.
4. Conclusion
Les réseaux de neurones graphiques ont suscité un énorme intérêt ces dernières années. Ces algorithmes puissants étendent les modèles d’apprentissage profond aux espaces non euclidiens. Cependant, les réseaux de neurones graphiques sont limités à des hypothèses de structure de graphes statiques, ce qui limite les performances des réseaux de neurones graphiques lorsque les données changent au fil du temps. Le réseau neuronal graphique séquentiel est une extension du réseau neuronal graphique qui prend en compte les facteurs temporels. Cet article fournit un aperçu complet des réseaux de neurones à graphes spatio-temporels. Cet article propose une taxonomie qui divise les réseaux de neurones à graphes spatio-temporels en deux catégories basées sur des méthodes variables dans le temps. Le large éventail d'applications des réseaux neuronaux à graphes spatio-temporels est également discuté. Enfin, des orientations de recherche futures sont proposées sur la base des défis ouverts actuellement rencontrés par les réseaux neuronaux à graphes spatio-temporels.
Références :https://www.php.cn/link/1915523773b16865a73a38acc952ccda
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

BERT est un modèle de langage d'apprentissage profond pré-entraîné proposé par Google en 2018. Le nom complet est BidirectionnelEncoderRepresentationsfromTransformers, qui est basé sur l'architecture Transformer et présente les caractéristiques d'un codage bidirectionnel. Par rapport aux modèles de codage unidirectionnels traditionnels, BERT peut prendre en compte les informations contextuelles en même temps lors du traitement du texte, de sorte qu'il fonctionne bien dans les tâches de traitement du langage naturel. Sa bidirectionnalité permet à BERT de mieux comprendre les relations sémantiques dans les phrases, améliorant ainsi la capacité expressive du modèle. Grâce à des méthodes de pré-formation et de réglage fin, BERT peut être utilisé pour diverses tâches de traitement du langage naturel, telles que l'analyse des sentiments, la dénomination

Les méthodes d'apprentissage profond d'aujourd'hui se concentrent sur la conception de la fonction objectif la plus appropriée afin que les résultats de prédiction du modèle soient les plus proches de la situation réelle. Dans le même temps, une architecture adaptée doit être conçue pour obtenir suffisamment d’informations pour la prédiction. Les méthodes existantes ignorent le fait que lorsque les données d’entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d’informations sera perdue. Cet article abordera des problèmes importants lors de la transmission de données via des réseaux profonds, à savoir les goulots d'étranglement de l'information et les fonctions réversibles. Sur cette base, le concept d'information de gradient programmable (PGI) est proposé pour faire face aux différents changements requis par les réseaux profonds pour atteindre des objectifs multiples. PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objectif, obtenant ainsi des informations de gradient fiables pour mettre à jour les pondérations du réseau. De plus, un nouveau cadre de réseau léger est conçu

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

L'intégration d'espace latent (LatentSpaceEmbedding) est le processus de mappage de données de grande dimension vers un espace de faible dimension. Dans le domaine de l'apprentissage automatique et de l'apprentissage profond, l'intégration d'espace latent est généralement un modèle de réseau neuronal qui mappe les données d'entrée de grande dimension dans un ensemble de représentations vectorielles de basse dimension. Cet ensemble de vecteurs est souvent appelé « vecteurs latents » ou « latents ». encodages". Le but de l’intégration de l’espace latent est de capturer les caractéristiques importantes des données et de les représenter sous une forme plus concise et compréhensible. Grâce à l'intégration de l'espace latent, nous pouvons effectuer des opérations telles que la visualisation, la classification et le regroupement de données dans un espace de faible dimension pour mieux comprendre et utiliser les données. L'intégration d'espace latent a de nombreuses applications dans de nombreux domaines, tels que la génération d'images, l'extraction de caractéristiques, la réduction de dimensionnalité, etc. L'intégration de l'espace latent est le principal

Dans la vague actuelle de changements technologiques rapides, l'intelligence artificielle (IA), l'apprentissage automatique (ML) et l'apprentissage profond (DL) sont comme des étoiles brillantes, à la tête de la nouvelle vague des technologies de l'information. Ces trois mots apparaissent fréquemment dans diverses discussions de pointe et applications pratiques, mais pour de nombreux explorateurs novices dans ce domaine, leurs significations spécifiques et leurs connexions internes peuvent encore être entourées de mystère. Alors regardons d'abord cette photo. On constate qu’il existe une corrélation étroite et une relation progressive entre l’apprentissage profond, l’apprentissage automatique et l’intelligence artificielle. Le deep learning est un domaine spécifique du machine learning, et le machine learning

Près de 20 ans se sont écoulés depuis que le concept d'apprentissage profond a été proposé en 2006. L'apprentissage profond, en tant que révolution dans le domaine de l'intelligence artificielle, a donné naissance à de nombreux algorithmes influents. Alors, selon vous, quels sont les 10 meilleurs algorithmes pour l’apprentissage profond ? Voici les meilleurs algorithmes d’apprentissage profond, à mon avis. Ils occupent tous une position importante en termes d’innovation, de valeur d’application et d’influence. 1. Contexte du réseau neuronal profond (DNN) : Le réseau neuronal profond (DNN), également appelé perceptron multicouche, est l'algorithme d'apprentissage profond le plus courant lorsqu'il a été inventé pour la première fois, jusqu'à récemment en raison du goulot d'étranglement de la puissance de calcul. années, puissance de calcul, La percée est venue avec l'explosion des données. DNN est un modèle de réseau neuronal qui contient plusieurs couches cachées. Dans ce modèle, chaque couche transmet l'entrée à la couche suivante et

Adresse papier : https://arxiv.org/abs/2307.09283 Adresse code : https://github.com/THU-MIG/RepViTRepViT fonctionne bien dans l'architecture ViT mobile et présente des avantages significatifs. Ensuite, nous explorons les contributions de cette étude. Il est mentionné dans l'article que les ViT légers fonctionnent généralement mieux que les CNN légers sur les tâches visuelles, principalement en raison de leur module d'auto-attention multi-têtes (MSHA) qui permet au modèle d'apprendre des représentations globales. Cependant, les différences architecturales entre les ViT légers et les CNN légers n'ont pas été entièrement étudiées. Dans cette étude, les auteurs ont intégré des ViT légers dans le système efficace.

Convolutional Neural Network (CNN) et Transformer sont deux modèles d'apprentissage en profondeur différents qui ont montré d'excellentes performances sur différentes tâches. CNN est principalement utilisé pour les tâches de vision par ordinateur telles que la classification d'images, la détection de cibles et la segmentation d'images. Il extrait les caractéristiques locales de l'image via des opérations de convolution et effectue une réduction de dimensionnalité des caractéristiques et une invariance spatiale via des opérations de pooling. En revanche, Transformer est principalement utilisé pour les tâches de traitement du langage naturel (NLP) telles que la traduction automatique, la classification de texte et la reconnaissance vocale. Il utilise un mécanisme d'auto-attention pour modéliser les dépendances dans des séquences, évitant ainsi le calcul séquentiel dans les réseaux neuronaux récurrents traditionnels. Bien que ces deux modèles soient utilisés pour des tâches différentes, ils présentent des similitudes dans la modélisation des séquences.
