


Un article sur la prévision des séries chronologiques sous la vague des modèles à grande échelle
Aujourd'hui, je vais vous parler de l'application des grands modèles dans la prévision de séries chronologiques. Avec le développement de grands modèles dans le domaine de la PNL, de plus en plus de travaux tentent d'appliquer de grands modèles au domaine de la prédiction de séries chronologiques. Cet article présente les principales méthodes d'application des grands modèles à la prévision des séries chronologiques et résume certains travaux récents connexes pour aider chacun à comprendre les méthodes de recherche sur la prévision des séries chronologiques à l'ère des grands modèles.
1. Méthodes de prévision de séries chronologiques sur de grands modèles
Au cours des trois derniers mois, de nombreux travaux de prévision de séries chronologiques sur de grands modèles ont vu le jour, qui peuvent essentiellement être divisés en deux types.
Contenu réécrit : une approche consiste à utiliser directement des modèles de PNL à grande échelle pour la prévision de séries chronologiques. Dans cette méthode, de grands modèles NLP tels que GPT et Llama sont utilisés pour la prédiction de séries chronologiques. La clé réside dans la façon de convertir les données de séries chronologiques en données adaptées à l'entrée de grands modèles. La seconde consiste à former de grands modèles dans le domaine des séries chronologiques. Dans ce type de méthode, un grand nombre d'ensembles de données de séries chronologiques sont utilisés pour former conjointement un grand modèle tel que GPT ou Llama dans le domaine des séries chronologiques, et utilisés pour les tâches de séries chronologiques en aval.
Pour les deux types de méthodes ci-dessus, voici quelques travaux classiques de représentation de séries chronologiques sur grands modèles.
2. Appliquer les grands modèles NLP aux séries chronologiques
Cette méthode est l'un des premiers travaux de prédiction de séries chronologiques de modèles à grande échelle
L'article "Large Language Models as Zero Samples" publié conjointement par l'Université de New York et l'Université Carnegie Mellon. Dans « Time Series Predictor », la représentation numérique de la série chronologique est conçue pour être tokenisée afin de la convertir en une entrée pouvant être reconnue par les grands modèles tels que GPT et LLaMa. Étant donné que différents modèles à grande échelle symbolisent les nombres différemment, une personnalisation est requise lors de l'utilisation de différents modèles. Par exemple, GPT divisera une chaîne de nombres en différentes sous-séquences, ce qui affectera l'apprentissage du modèle. Par conséquent, cet article impose un espace entre les nombres pour s'adapter au format d'entrée de GPT. Pour les grands modèles récemment sortis tels que LLaMa, les numéros individuels sont généralement divisés, il n'est donc pas nécessaire d'ajouter des espaces. Dans le même temps, afin d'éviter que la séquence d'entrée ne soit trop longue en raison de valeurs de séries chronologiques trop grandes, certaines opérations de mise à l'échelle sont effectuées dans l'article pour limiter les valeurs de la série chronologique d'origine à une plage plus raisonnable
ImagesCaractères numériques après le traitement ci-dessus La chaîne est entrée dans le grand modèle, et le grand modèle prédit de manière autorégressive le nombre suivant, et convertit finalement le nombre prédit en valeur de série chronologique correspondante. La figure ci-dessous donne un diagramme schématique. Utiliser la probabilité conditionnelle du modèle de langage pour modéliser des nombres consiste à prédire la probabilité que le chiffre suivant soit chaque nombre en fonction des nombres précédents. Il s'agit d'une structure softmax hiérarchique itérative, couplée à la représentation. La capacité du grand modèle peut s'adapter à une variété de types de distribution, c'est pourquoi les grands modèles peuvent être utilisés de cette manière pour la prévision de séries chronologiques. Dans le même temps, la probabilité du prochain nombre prédit par le modèle peut également être convertie en une prédiction d'incertitude pour obtenir une estimation de l'incertitude des séries chronologiques.
PhotosDans un autre article intitulé "TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS", l'auteur a proposé une méthode de reprogrammation pour convertir les séries temporelles en texte afin d'obtenir un alignement entre les deux formes de séries temporelles. et texte
La méthode de mise en œuvre spécifique consiste à d'abord diviser la série chronologique en plusieurs correctifs, et chaque correctif obtient une intégration via MLP. Ensuite, l'intégration du correctif est mappée sur le vecteur de mots dans le modèle de langage pour obtenir un mappage et un alignement intermodal des segments de séries chronologiques et du texte. L'article propose une idée de prototype de texte, qui mappe plusieurs mots sur un prototype pour représenter la sémantique d'une séquence de correctifs sur une période de temps. Par exemple, dans l'exemple ci-dessous, les mots shot et up sont mappés sur des triangles rouges, qui correspondent à des parcelles de sous-séquences ascendantes à court terme dans la série chronologique.
Images3. Grand modèle de séries chronologiques
Une autre direction de recherche consiste à construire directement un grand modèle pour la prédiction de séries chronologiques en se référant à la méthode de construction de grands modèles dans le domaine du traitement du langage naturel
Lag-Llama : Vers des modèles de base pour la prévision des séries chronologiques Cet article construit le modèle Llama en séries chronologiques. Le noyau comprend la conception au niveau des fonctionnalités et au niveau de la structure du modèle.
En termes de fonctionnalités, l'article extrait des fonctionnalités de décalage multi-échelles et multi-types, qui sont principalement des valeurs statistiques de séquence historique dans différentes fenêtres temporelles de la série chronologique d'origine. Ces séquences sont entrées dans le modèle en tant que fonctionnalités supplémentaires. En termes de structure de modèle, le cœur de la structure LlaMA en PNL est Transformer, dans lequel la méthode de normalisation et la partie de codage de position ont été optimisées. La couche de sortie finale utilise plusieurs têtes pour ajuster les paramètres de la distribution de probabilité. Par exemple, la distribution gaussienne correspond à la variance moyenne. La distribution Student-t est utilisée dans cet article, ainsi que les trois paramètres correspondants : liberté, moyenne et échelle. sont sortis, et finalement à chaque fois est obtenu le résultat de la distribution de probabilité prédite du point.
Pictures
Un autre travail similaire est TimeGPT-1, qui construit un modèle GPT dans le domaine des séries chronologiques. En termes de formation des données, TimeGPT utilise une grande quantité de données de séries chronologiques, atteignant un total de 10 milliards de points d'échantillonnage de données, impliquant divers types de données de domaine. Pendant la formation, des lots plus grands et des taux d'apprentissage plus faibles sont utilisés pour améliorer la robustesse de la formation. La structure principale du modèle est le modèle GPT classique
image
Les résultats expérimentaux ci-dessous montrent également que dans certaines tâches d'apprentissage à échantillon nul, ce grand modèle pré-entraîné en série chronologique a obtenu de meilleurs résultats que le modèle de base Amélioration significative des performances.
Photos
4. Résumé
Cet article présente les idées de recherche sur la prévision de séries chronologiques sous la vague de grands modèles. Le processus global comprend l'utilisation directe de grands modèles PNL pour la prévision de séries chronologiques et la formation de grands modèles dans le temps. champ de série. Quelle que soit la méthode utilisée, elle nous montre le potentiel des grands modèles + séries chronologiques, et c'est une direction qui mérite une étude approfondie.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.
