Tout à l'heure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.-IA-php.cn

Générez un monde de jeu jouable en un seul clic.

Cela ne fait que deux semaines qu'il est sorti, et le modèle mondial de Google est également là, et ses capacités semblent encore plus puissantes : le monde virtuel qu'il génère est « autonome et contrôlable ». Tout à l'heure, Google a défini un nouveau paradigme d'IA générative : les environnements interactifs génératifs (Genie). Genie est un modèle mondial de base de 11 milliards de paramètres qui peut générer des environnements jouables et interactifs à partir d'une seule invite d'image.

Nous pouvons le stimuler avec des images qu'il n'a jamais vues auparavant, puis interagir avec le monde virtuel de notre imagination.

Qu'il s'agisse d'images composites, de photos ou même de croquis dessinés à la main, Genie peut générer une infinité de mondes jouables à partir d'elles.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Genie se compose de trois parties : un modèle d'action latente pour déduire des actions potentielles entre chaque paire d'images ; un tokenizer vidéo pour convertir les images vidéo brutes en jetons discrets et un modèle dynamique pour prédire l'image suivante d'une vidéo donnée ; une action potentielle et un jeton de trame passée.

En voyant la sortie de cette technologie, de nombreuses personnes ont dit : Google revient à nouveau à la pointe de la technologie de l'IA.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Google propose également que les actions potentielles apprises par Genie puissent être transférées dans de véritables environnements conçus par l'homme. Sur la base de cette hypothèse, Google a formé un modèle Genie sur des vidéos de robots comme preuve de concept pour des applications potentielles de modèles mondiaux dans le domaine de la robotique.

Industries perturbées du jeu, du design, de la XR, de la robotique...

Nous pouvons comprendre l'importance révolutionnaire de Genie sous quatre dimensions.

Tout d'abord, Genie peut apprendre les commandes sans balises d'action.

Plus précisément, Genie est formé avec un grand nombre d'ensembles de données vidéo publiques sur Internet sans aucune donnée d'étiquette d'action.

Cela aurait été un défi car les vidéos Internet n'ont souvent pas d'étiquettes indiquant quelle action est effectuée et quelle partie de l'image doit être contrôlée, mais Genie est capable d'apprendre un contrôle précis spécifiquement à partir des vidéos Internet.

Pour Genie, il comprend non seulement quelles parties des observations sont généralement contrôlables, mais déduit également diverses actions potentielles cohérentes dans l'environnement généré. Notez comment la même action sous-jacente peut produire un comportement similaire dans différentes images d'invite.

Deuxièmement, Genie peut cultiver la prochaine génération de « créateurs ».

Créer un tout nouvel environnement interactif avec une seule image ouvre la porte à une variété de nouvelles façons de générer et d'accéder à des mondes virtuels. Par exemple, nous pouvons utiliser un modèle d'image de génération de texte de pointe pour générer le cadre de départ, puis travailler avec Genie pour générer un environnement interactif dynamique.

Dans l'animation suivante, Google a utilisé Imagen2 pour générer des images, puis a utilisé Genie pour les transformer en réalité :

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Genie peut faire plus que cela, il peut également être appliqué aux domaines créatifs liés au design humain tels que dessiner.

Ou, appliqué aux images du monde réel :

Une fois de plus, Google estime que Genie est la pierre angulaire de la réalisation de l'intelligence à usage général. Des recherches antérieures ont montré que les environnements de jeu peuvent constituer des bancs d’essai efficaces pour développer des agents d’IA, mais sont souvent limités par le nombre de jeux disponibles.

Maintenant, avec Genie, les futurs agents IA peuvent être formés au programme sans fin du monde nouvellement généré. Google a présenté une preuve de concept selon laquelle les actions potentielles apprises par Genie peuvent être transférées à de véritables environnements conçus par l'homme.

Enfin, Google a déclaré que Genie est une méthode générale qui peut être appliquée à plusieurs domaines sans nécessiter aucune connaissance supplémentaire du domaine.

Bien que les données utilisées concernent davantage des jeux de plateforme 2D et des vidéos de robots, la méthode est générale et applicable à tout type de domaine et peut être étendue à des ensembles de données Internet plus importants.

Google a formé un modèle plus petit de 2,5 milliards sur les vidéos sans mouvement de RT1. Comme c’est le cas avec les plateformes, les trajectoires ayant la même séquence d’actions sous-jacente présenteront souvent un comportement similaire.

Cela montre que Genie peut apprendre un espace d'action cohérent, qui peut convenir à la formation de robots pour créer une intelligence incarnée généralisée.

Technologie révélée : l'article "Genie : Generative Interactive Environments" a été publié

Google DeepMind a publié l'article Genie.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Adresse papier : https://arxiv.org/pdf/2402.15391.pdf
Page d'accueil du projet : https://sites.google.com/view/genie-2024/home?pli= 1

Il y a jusqu'à 6 co-auteurs de cet article, dont l'universitaire chinois Yuge (Jimmy) Shi. Elle est actuellement chercheuse scientifique chez Google DeepMind et a obtenu son doctorat en apprentissage automatique à l'Université d'Oxford en 2023.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Introduction à la méthode

Plusieurs composants de l'architecture Genie sont construits sur la base de Vision Transformer (ViT). Il convient de noter qu'en raison du coût de la mémoire secondaire de Transformer, qui pose des défis au domaine vidéo, une vidéo peut contenir jusqu'à ?(10^4) jetons. Par conséquent, Google utilise une architecture de transformateur ST économe en mémoire (voir Figure 4) dans tous les composants du modèle pour équilibrer la capacité du modèle et les contraintes de calcul.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Genie contient trois composants clés (comme le montre la figure ci-dessous) :

1) Modèle d'action latente (LAM), utilisé pour raisonner sur les actions potentielles entre chaque paire d'images

2) Tokenizer vidéo (Tokenizer ; ), utilisé pour convertir les images vidéo originales en jetons discrets ? ;

3) Modèle dynamique, compte tenu des actions potentielles et des jetons des images passées, utilisé pour prédire l'image suivante de la vidéo.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Plus précisément :

Modèle d'action latente : afin de parvenir à une génération vidéo contrôlable, Google utilise l'action entreprise dans l'image précédente comme condition pour la prédiction de l'image future. Cependant, de telles étiquettes d’action sont rarement disponibles dans les vidéos sur Internet, et le coût d’obtention d’annotations d’action peut être élevé. Au lieu de cela, Google apprend les actions potentielles de manière totalement non supervisée (voir Figure 5).

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Tokenizer vidéo : sur la base de recherches antérieures, Google compresse les vidéos en jetons discrets pour réduire la dimensionnalité et obtenir une génération vidéo de meilleure qualité (voir Figure 6). Pour la mise en œuvre, Google utilise VQ-VAE, qui prend ? images Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif. d'une vidéo en entrée et génère une représentation discrète pour chaque image : , où est la taille de l'espace latent discret. Le tokenizer est entraîné sur l’intégralité de la séquence vidéo à l’aide du standard VQ-VQAE.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Modèle dynamique : est un transformateur MaskGIT réservé au décodeur (Figure 7).

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Le processus d'inférence de Genie est le suivant

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Résultats expérimentaux

Résultats d'extension

Afin d'étudier le comportement d'expansion du modèle, Google a mené des expériences sur des modèles avec des tailles de paramètres allant de 2,7 B à 41M Pour explorer l'impact de la taille du modèle et de la taille du lot, les résultats expérimentaux sont présentés dans la figure 9 ci-dessous.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

On peut observer qu'à mesure que la taille du modèle augmente, la perte d'entraînement finale diminuera. Cela indique clairement que l’approche Genie bénéficie d’une mise à l’échelle. Dans le même temps, l’augmentation de la taille des lots entraînera également des gains en termes de performances du modèle.

Résultats qualitatifs

Google présente des résultats expérimentaux qualitatifs pour le modèle paramétrique Genie 11B formé sur l'ensemble de données Platformers et un modèle plus petit formé sur l'ensemble de données Robotics. Les résultats montrent que le modèle Genie peut générer des vidéos contrôlables de haute qualité dans différents domaines. Notamment, Google utilise uniquement des invites d'images hors distribution (OOD) pour évaluer qualitativement ses modèles de formation de plate-forme, démontrant la robustesse de l'approche Genie et la valeur de la formation de données à grande échelle.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Formation d'agent. Peut-être qu’un jour, Genie pourra être utilisé comme modèle mondial de base pour former des agents multitâches. Dans la figure 14, les auteurs montrent que le modèle peut déjà être utilisé pour générer différentes trajectoires dans un nouvel environnement RL étant donné un cadre de départ.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Les auteurs effectuent des évaluations dans CoinRun, un environnement de jeu de plateforme 2D généré de manière procédurale, et comparent avec un modèle de clone comportemental Oracle (BC) avec l'accès à des opérations expertes comme limite supérieure.

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Recherche sur l'ablation. Sélection Lors de la conception du modèle d'action latente, les auteurs ont soigneusement examiné les types d'intrants à utiliser. Alors que le choix final était d'utiliser des images brutes (pixels), les auteurs ont évalué ce choix par rapport à l'alternative consistant à utiliser des images tokenisées (en remplaçant x par z dans la figure 5) lors de la conception de Genie. Cette alternative est appelée modèle « token input » (voir tableau 2).

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.

Ablation de l'architecture du tokenizer. Les auteurs ont comparé les performances de trois choix de tokenizer, dont 1) (spatial uniquement) ViT, 2) (spatial et temporel) ST-ViViT et 3) (spatial et temporel) CViViT (Tableau 3).

Tout à lheure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif.