L'Université Tsinghua, Huawei et d'autres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs-IA-php.cn

iVideoGPT répond aux besoins de forte interactivité des modèles mondiaux.

Les modèles génératifs ont fait des progrès significatifs ces dernières années, parmi lesquels la génération vidéo devient une nouvelle frontière. Une application importante de ces modèles vidéo génératifs consiste à apprendre de manière non supervisée sur diverses données à l’échelle d’Internet pour créer des modèles mondiaux prédictifs. Ces modèles mondiaux devraient accumuler des connaissances de bon sens sur le fonctionnement du monde, permettant ainsi de prédire les résultats futurs potentiels en fonction du comportement des agents.

En tirant parti de ces modèles mondiaux, les agents utilisant l'apprentissage par renforcement peuvent imaginer, raisonner et planifier au sein du modèle mondial, acquérant ainsi de nouvelles compétences de manière plus sûre et plus efficace dans le monde réel avec un peu d'expérimentation.

Malgré le lien fondamental entre les modèles génératifs et les modèles mondiaux, il existe encore un écart important entre le développement de modèles génératifs pour la génération vidéo et les modèles mondiaux pour l'apprentissage des agents. L’un des principaux défis consiste à trouver le meilleur équilibre entre interactivité et évolutivité.

Dans le domaine de l'apprentissage par renforcement basé sur des modèles, les modèles mondiaux utilisent principalement une architecture de réseau récurrente. Cette conception facilite l'apprentissage comportemental interactif en permettant de transmettre des observations ou des états latents en fonction des actions à chaque étape. Cependant, ces modèles se concentrent principalement sur des environnements de jeu ou de simulation, disposent de données simples et ont une capacité limitée à modéliser des données complexes et à grande échelle dans la nature.

En revanche, les modèles de génération vidéo à l'échelle Internet peuvent synthétiser de longues vidéos réalistes qui peuvent être contrôlées avec des descriptions textuelles ou des séquences d'action futures. Bien que de tels modèles permettent une planification de haut niveau à long terme, leur interactivité au niveau de la trajectoire ne fournit pas aux agents une granularité suffisante pour apprendre efficacement des comportements précis en tant que compétence fondamentale.

Des chercheurs de l'Université Tsinghua, du laboratoire Huawei Noah's Ark et de l'Université de Tianjin ont proposé iVideoGPT (Interactive VideoGPT), qui est un cadre de transformateur autorégressif évolutif qui combine des signaux multimodaux (observation visuelle, actions et récompenses) intégrés dans un série de jetons, permettant à l'agent de mener des expériences interactives en prédisant le prochain jeton.

iVideoGPT utilise une nouvelle technologie de tokenisation de compression pour distinguer efficacement les observations visuelles de haute dimension. En tirant parti de son architecture évolutive, les chercheurs ont pu pré-entraîner iVideoGPT sur des millions de trajectoires opérationnelles humaines et robotiques, établissant ainsi une base polyvalente pouvant être utilisée comme modèle mondial interactif pour diverses tâches en aval. Cette recherche favorise le développement de modèles mondiaux interactifs et universels.

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

Adresse de l'article : https://arxiv.org/pdf/2405.15223
Titre de l'article : iVideoGPT : les vidéoGPT interactifs sont des modèles mondiaux évolutifs

Méthode

Dans cette partie, l'équipe de recherche présente une architecture de modèle mondial évolutive - iVideoGPT, qui est extrêmement flexible et peut intégrer des informations multimodales, notamment des observations visuelles, des actions, des récompenses et d'autres entrées potentielles.

Le cœur d'iVideoGPT comprend un tokenizer de compression pour discrétiser les images vidéo et un transformateur autorégressif pour prédire les tokens suivants. Grâce à une formation préalable sur diverses données vidéo, le modèle peut acquérir des connaissances approfondies du monde, puis les transférer efficacement vers des tâches en aval.

Architecture

Tokenisation compressée. Transformer fonctionne particulièrement bien dans la gestion des séquences de jetons discrets. VQGAN est un tokeniseur visuel couramment utilisé qui convertit les pixels bruts en jetons discrets. Les chercheurs ont proposé d'utiliser un nouveau VQGAN conditionnel composé d'un double encodeur et décodeur {(E_c, D_c), (E_p, D_p)} pour tokeniser la vidéo.

Comme le montre la figure 3a, le cadre de contexte initial LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

contient de riches informations contextuelles, qui sont tokenisées et reconstruites indépendamment via N jetons :

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

En revanche, en raison de la redondance temporelle entre les images contextuelles et les images futures, seules les informations de changement nécessaires, telles que la position et la pose des objets en mouvement, doivent être codées. Le processus ci-dessus est réalisé à l'aide d'encodeurs et de décodeurs conditionnels :

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

Les chercheurs ont mis en œuvre le mécanisme conditionnel en utilisant une attention croisée entre des cartes de caractéristiques multi-échelles. En général, le tokenizer est formé avec les objectifs suivants :

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

La tokenisation proposée dans cette étude présente principalement deux avantages :

Premièrement, elle réduit considérablement la séquence de vidéos tokenisées. La longueur, qui croît linéairement avec le nombre d'images, mais le taux de croissance n est beaucoup plus faible ;
Deuxièmement, grâce au codage conditionnel, le transformateur qui prédit les jetons suivants peut plus facilement maintenir la cohérence temporelle du contexte et concentrer les informations dynamiques nécessaires à la modélisation.

Prédictions interactives pour Transformer. Après la tokenisation, la vidéo est aplatie en une série de jetons :

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

la longueur est de LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

. Des jetons d'emplacement spéciaux [S] sont insérés pour délimiter les limites du cadre et faciliter la fusion de modalités supplémentaires de faible dimension telles que des actions. Comme le montre la figure 3b, un transformateur autorégressif de type GPT est utilisé pour la prédiction vidéo interactive en générant les jetons suivants image par image. Dans ce travail, l'équipe a utilisé la taille du modèle de GPT-2 mais a adapté l'architecture LLaMA afin de tirer parti des innovations récentes dans les architectures LLM, telles que l'intégration de positions rotationnelles.

Pré-formation

Les grands modèles linguistiques peuvent acquérir des connaissances approfondies à partir de textes Internet de manière auto-supervisée grâce à la prédiction du mot suivant. De même, le paradigme de pré-formation vidéo sans action du modèle mondial utilise la prédiction vidéo comme objectif de pré-formation pour fournir une supervision à l'échelle Internet pour la connaissance du monde physique qui manque à LLM.

Les chercheurs ont pré-entraîné iVideoGPT sur cette cible générale, en appliquant une perte d'entropie croisée pour prédire les jetons vidéo suivants :

LUniversité Tsinghua, Huawei et dautres ont proposé iVideoGPT : spécialisé dans les modèles mondiaux interactifs

Données pré-entraînement. Bien qu'il existe un grand nombre de vidéos disponibles sur Internet, en raison de limitations informatiques, les chercheurs ont pré-entraîné iVideoGPT spécifiquement pour le domaine de la manipulation robotique. Ils ont utilisé un mélange de 35 ensembles de données de l’ensemble de données Open X-Embodiment (OXE) et de l’ensemble de données Something-Something v2 (SSv2), totalisant 1,5 million de trajectoires.

Réglage précis

conditions d'action et prédiction de récompense. L'architecture de l'équipe est conçue pour intégrer de manière flexible des modalités supplémentaires pour apprendre un modèle mondial interactif, comme le montre la figure 3b. Les actions sont intégrées via une projection linéaire et ajoutées aux intégrations de jetons de slot. Pour la prédiction des récompenses, au lieu d’apprendre un prédicteur de récompense distinct, ils ont ajouté une tête linéaire sur l’état caché du dernier jeton de chaque observation.

Cette méthode d'apprentissage multitâche peut améliorer l'attention du modèle aux informations liées aux tâches, améliorant ainsi la précision de prédiction des tâches de contrôle. En plus de la perte d'entropie croisée de l'équation (3), ils ont également utilisé la perte d'erreur quadratique moyenne pour la prédiction des récompenses.

Adaptation du tokenizer. L'équipe de recherche a choisi de mettre à jour le modèle complet, y compris le tokenizer, pour s'adapter aux tâches en aval, et a trouvé que cette stratégie était plus efficace que les méthodes de réglage fin efficaces en termes de paramètres.

Il existe très peu de littérature explorant l'utilisation du tokenizer VQGAN pour les données spécifiques à un domaine. Dans ce travail, puisque la tokenisation dissocie les informations dynamiques des conditions contextuelles, on suppose que même si ce modèle peut rencontrer des objets invisibles dans des tâches en aval, comme différents types de robots, le transformateur apprend de divers scénarios. Connaissances physiques de base, telles que le mouvement et l'interaction. - est partagé.

Cette hypothèse est étayée par des expériences dans lesquelles ils ont migré iVideoGPT de données mixtes de pré-entraînement vers l'ensemble de données invisible BAIR, où le transformateur pré-entraîné peut prédire le mouvement naturel avec une généralisation sans tir, uniquement pour un ajustement invisible. tokenizer de la pince du robot que vous avez vu (voir Figure 7). Cette fonctionnalité est particulièrement importante pour faire évoluer les transformateurs de type GPT vers de grandes tailles, permettant un alignement léger entre les domaines tout en gardant le transformateur intact.

Expériences

Comme le montre le tableau 1, iVideoGPT présente des performances compétitives par rapport aux méthodes SOTA tout en atteignant l'interactivité et l'évolutivité de son architecture. Alors que des expériences préliminaires ont été menées à la basse résolution de 64×64, iVideoGPT peut être facilement étendu à 256×256 de RoboNet.

Voir la figure 9 pour les résultats qualitatifs.

La figure 4 montre le taux de réussite d'iVideoGPT par rapport au modèle de base. iVideoGPT surpasse considérablement toutes les lignes de base sur les deux tâches RoboDesk et atteint des performances moyennes comparables à celles du modèle SVG le plus puissant.

La figure 6 montre que l'algorithme basé sur un modèle améliore non seulement l'efficacité des échantillons par rapport à l'algorithme sans modèle, mais atteint ou dépasse également les performances de DreamerV3.

La prochaine étude analyse la capacité de prédiction vidéo sans prise de vue d'iVideoGPT pré-entraîné à grande échelle sur l'ensemble de données invisibles BAIR. Fait intéressant, nous observons dans la deuxième rangée de la figure 7 qu'iVideoGPT prédit le mouvement naturel d'une pince de robot sans réglage fin, bien que différemment de l'ensemble de données de pré-entraînement. Cela montre que bien que le modèle ait limité la généralisation du tir zéro à des robots totalement invisibles en raison d'une diversité insuffisante des données de pré-entraînement, il sépare efficacement le contexte de la scène de la dynamique du mouvement. En revanche, en utilisant le tokenizer adapté, le Transformer non réglé avec succès transfère avec succès les connaissances pré-entraînées et prédit le mouvement du nouveau robot dans la troisième rangée, offrant une perception similaire à celle du Transformer entièrement réglé dans la quatrième rangée. Les résultats qualitatifs et quantitatifs sont présentés à la figure 8a.