Maison Périphériques technologiques IA Les universités nationales construisent un VDT ​​modèle de type Sora, et le transformateur de diffusion vidéo universel a été accepté par l'ICLR 2024.

Les universités nationales construisent un VDT ​​modèle de type Sora, et le transformateur de diffusion vidéo universel a été accepté par l'ICLR 2024.

Feb 26, 2024 am 08:01 AM
openai 产业 sora

La sortie d'OpenAI Sora le 16 février marque sans aucun doute une avancée majeure dans le domaine de la génération vidéo. Sora est basé sur l'architecture Diffusion Transformer, qui est différente de la plupart des méthodes traditionnelles du marché (étendue par 2D Stable Diffusion).

Pourquoi Sora insiste pour utiliser Diffusion Transformer, les raisons peuvent être vues dans l'article publié à l'ICLR 2024 (VDT : General-Purpose Video Diffusion Transformers via Mask Modeling) en même temps.

Ce travail a été dirigé par l'équipe de recherche de l'Université Renmin de Chine et en collaboration avec l'Université de Californie, Berkeley, l'Université de Hong Kong, etc., et a été publié pour la première fois sur le site arXiv en mai 2023. L'équipe de recherche a proposé un cadre de génération vidéo unifié basé sur Transformer - Video Diffusion Transformer (VDT) et a donné une explication détaillée des raisons de l'adoption de l'architecture Transformer.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

  • Titre de l'article : VDT : Transformateurs de diffusion vidéo à usage général via la modélisation de masques
  • Adresse de l'article : Openreview : https://openreview.net/pdf?id=Un0rgm9f04
  • Adresse arXiv : https://arxiv.org/abs/2305.13311
  • Adresse du projet : VDT : Transformateurs de diffusion vidéo à usage général via la modélisation de masques
  • Adresse du code : https://github.com/RERV/VDT

1. La supériorité et l'innovation du VDT

Le chercheur a déclaré que la supériorité du modèle VDT utilisant l'architecture Transformer dans le domaine de la génération vidéo se reflète dans :

  • et U- qui est principalement conçu pour les images.Net, Transformer peut capturer des dépendances temporelles à long terme ou irrégulières grâce à ses puissants mécanismes de tokenisation et d'attention, gérant ainsi mieux la dimension temporelle.
  • Ce n'est que lorsque le modèle apprend (ou mémorise) des connaissances du monde (telles que les relations espace-temps et les lois physiques) qu'il peut générer des vidéos cohérentes avec le monde réel. La capacité du modèle devient donc un élément clé de la diffusion vidéo. Transformer s'est avéré hautement évolutif. Par exemple, le modèle PaLM comporte jusqu'à 540 B de paramètres, alors que la plus grande taille de modèle 2D U-Net à l'époque n'était que de 2,6 B paramètres (SDXL), ce qui rend Transformer plus approprié que le 3D U. -Net.Défis de génération vidéo.
  • Le domaine de la génération vidéo couvre plusieurs tâches, notamment la génération inconditionnelle, la prédiction vidéo, l'interpolation et la génération de texte en image. Les recherches antérieures se concentraient souvent sur une seule tâche, nécessitant souvent l'introduction de modules spécialisés pour affiner les tâches en aval. De plus, ces tâches impliquent une grande variété d’informations conditionnelles qui peuvent différer selon les trames et les modalités, nécessitant une architecture puissante capable de gérer différentes longueurs et modalités d’entrée. L'introduction de Transformer peut unifier ces tâches.

Les innovations de VDT incluent principalement les aspects suivants :

  • L'application de la technologie Transformer à la génération vidéo basée sur la diffusion démontre les capacités de Transformer dans le domaine de la génération vidéo Un énorme potentiel . L'avantage du VDT réside dans son excellente capacité de capture en fonction du temps, permettant la génération d'images vidéo temporellement cohérentes, notamment la simulation de la dynamique physique d'objets tridimensionnels au fil du temps.
  • Proposer une machine de modélisation de masques spatio-temporels unifiée, qui permet à VDT de gérer une variété de tâches de génération vidéo et de réaliser une application généralisée de la technologie. Les méthodes flexibles de traitement de l'information conditionnelle de VDT, telles que le simple épissage de l'espace de jetons, unifient efficacement les informations de différentes longueurs et modalités. Dans le même temps, en combinant le mécanisme de modélisation de masque spatio-temporel proposé dans ce travail, VDT est devenu un outil de diffusion vidéo universel qui peut être appliqué à la génération inconditionnelle, à la prédiction d'images vidéo ultérieures, à l'interpolation d'images et à la génération d'images sans modifier la structure du modèle. . Diverses tâches de génération vidéo telles que la réalisation de vidéos et d'écrans vidéo.

2. Interprétation détaillée de l'architecture réseau de VDT

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Le framework VDT est très similaire au framework de Sora et se compose des parties suivantes :

Fonctionnalités d'entrée/sortie. L'objectif de VDT est de générer un segment vidéo F×H×W×3 composé de F images vidéo de taille H×W. Cependant, si des pixels bruts sont utilisés comme entrée dans le VDT, en particulier lorsque F est grand, cela entraînera une complexité informatique extrêmement complexe. Pour résoudre ce problème, inspiré du modèle de diffusion latente (LDM), VDT utilise un tokenizer VAE pré-entraîné pour projeter la vidéo dans l'espace latent. La réduction des dimensions vectorielles d'entrée et de sortie à F×H/8×W/8×C des caractéristiques/bruit potentiels accélère la vitesse de formation et d'inférence du VDT, où la taille des caractéristiques latentes de la trame F est H/8×W. /8 . Ici, 8 est le taux de sous-échantillonnage du tokenizer VAE et C représente la dimension des fonctionnalités latentes.

Intégration linéaire. Suivant l'approche Vision Transformer, VDT divise la représentation des fonctionnalités vidéo latentes en patchs non chevauchants de taille N × N.

Bloc transformateur espace-temps. Inspiré par le succès de l'auto-attention spatio-temporelle dans la modélisation vidéo, VDT a inséré une couche d'attention temporelle dans le Transformer Block pour obtenir des capacités de modélisation de dimension temporelle. Plus précisément, chaque bloc transformateur se compose d'une attention temporelle multi-têtes, d'une attention spatiale multi-têtes et d'un réseau de rétroaction entièrement connecté, comme le montre la figure ci-dessus.

En comparant le dernier rapport technique de Sora, nous pouvons voir que il n'y a que quelques différences subtiles dans les détails de mise en œuvre entre VDT ​​et Sora .

Tout d'abord, VDT adopte la méthode de traitement du mécanisme d'attention séparément dans la dimension spatio-temporelle, tandis que Sora fusionne les dimensions temporelles et spatiales et le traite via un mécanisme d'attention unique. Cette approche de séparation de l'attention est devenue assez courante dans le domaine vidéo et est souvent considérée comme une option de compromis sous les contraintes de la mémoire vidéo. VDT choisit d'utiliser une attention partagée en raison de ressources informatiques limitées. Les puissantes capacités dynamiques vidéo de Sora peuvent provenir du mécanisme global d’attention de l’espace et du temps.

Deuxièmement, contrairement à VDT, Sora considère également la fusion des conditions de texte. Il y a également eu des recherches antérieures sur la fusion conditionnelle de texte basée sur Transformer (comme DiT). On suppose que Sora pourrait en outre ajouter un mécanisme d'attention croisée à son module. Bien sûr, l'épissage direct du texte et du bruit en tant qu'entrée conditionnelle est également une solution. possibilité potentielle.

Au cours du processus de recherche de VDT, les chercheurs ont remplacé U-Net, un réseau fédérateur de base couramment utilisé, par Transformer. Cela a non seulement vérifié l'efficacité de Transformer dans les tâches de diffusion vidéo, montrant les avantages d'une expansion facile et d'une continuité améliorée, mais a également déclenché une réflexion plus approfondie sur sa valeur potentielle.

Avec le succès du modèle GPT et la popularité du modèle autorégressif (AR), les chercheurs ont commencé à explorer des applications plus approfondies de Transformer dans le domaine de la génération vidéo et à déterminer s'il peut fournir une nouvelle façon d'atteindre intelligence visuelle. Le domaine de la génération vidéo a une tâche étroitement liée : la prédiction vidéo. L’idée de prédire la prochaine image vidéo comme chemin vers l’intelligence visuelle peut sembler simple, mais il s’agit en fait d’une préoccupation commune à de nombreux chercheurs.

Sur la base de cette considération, les chercheurs espèrent adapter et optimiser davantage leurs modèles sur les tâches de prédiction vidéo. La tâche de prédiction vidéo peut également être considérée comme une génération conditionnelle, où les images conditionnelles données sont les premières images de la vidéo. VDT considère principalement les trois méthodes de génération de conditions suivantes :

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Normalisation adaptative des couches. Un moyen simple de réaliser la prédiction vidéo consiste à intégrer des caractéristiques de trame conditionnelles dans la normalisation des couches des blocs VDT, de la même manière que nous intégrons les informations temporelles dans le processus de diffusion.

Attention croisée. Les chercheurs ont également exploré l’utilisation de l’attention croisée comme schéma de prédiction vidéo, dans lequel les images conditionnelles sont utilisées comme clés et valeurs, et les images de bruit comme requêtes. Cela permet de fusionner des informations conditionnelles avec des trames de bruit. Avant d'entrer dans la couche d'attention croisée, utilisez le tokenizer VAE pour extraire les fonctionnalités de la trame conditionnelle et les corriger. Pendant ce temps, des intégrations de positions spatiales et temporelles sont également ajoutées pour aider notre VDT à apprendre les informations correspondantes dans des trames conditionnelles.

Épissure de jetons. Le modèle VDT adopte une architecture Transformer pure, donc l'utilisation directe de trames conditionnelles comme jetons d'entrée est une méthode plus intuitive pour VDT. Nous y parvenons en concaténant des trames conditionnées (caractéristiques latentes) et des trames de bruit au niveau du jeton, qui sont ensuite introduites dans le VDT. Ensuite, ils ont segmenté la séquence de trames de sortie du VDT et utilisé les trames prédites pour un processus de diffusion, comme le montre la figure 3 (b). Les chercheurs ont constaté que ce schéma démontrait la vitesse de convergence la plus rapide et offrait de meilleures performances dans les résultats finaux par rapport aux deux premières méthodes. En outre, les chercheurs ont découvert que même si des images conditionnelles de longueur fixe sont utilisées pendant la formation, le VDT peut toujours accepter des images conditionnelles de n'importe quelle longueur comme fonctionnalités de prédiction cohérentes en entrée et en sortie.

Dans le cadre de VDT, afin de réaliser la tâche de prédiction vidéo, il n'est pas nécessaire d'apporter des modifications à la structure du réseau, seule l'entrée du modèle doit être modifiée. Cette découverte conduit à une question intuitive : Pouvons-nous exploiter davantage cette évolutivité pour étendre VDT à des tâches de génération vidéo plus diverses - telles que la génération d'images vidéo - sans introduire de modules ou de paramètres supplémentaires  ?

En examinant les capacités de VDT en génération inconditionnelle et en prédiction vidéo, la seule différence réside dans le type de fonctionnalités d'entrée. Plus précisément, l’entrée peut être constituée de caractéristiques latentes purement bruitées, ou d’une concaténation de caractéristiques latentes conditionnelles et bruyantes. Ensuite, le chercheur a introduit la modélisation unifiée de masque spatio-temporel pour unifier l'entrée conditionnelle, comme le montre la figure 4 ci-dessous :

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

3. Évaluation des performances du VDT

Grâce à la méthode ci-dessus, le modèle VDT peut non seulement gérer les tâches de génération vidéo inconditionnelle et de prédiction vidéo de manière transparente, mais peut également être étendu à un plus large éventail de domaines de génération vidéo tels que la vidéo en ajustant simplement les fonctionnalités d'entrée. Interpolation de trame, etc. Cette incarnation de la flexibilité et de l'évolutivité démontre le puissant potentiel du cadre VDT et offre de nouvelles orientations et possibilités pour la future technologie de génération vidéo.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

Fait intéressant, en plus de la conversion texte-vidéo, OpenAI a également démontré d'autres tâches étonnantes de Sora, notamment la génération basée sur des images, la prédiction vidéo avant et arrière et des exemples de fusion de différents clips vidéo, etc., et le les chercheurs ont proposé Les tâches en aval prises en charge par la modélisation unifiée du masque spatio-temporel sont très similaires. Le MAE de Kaiming est également cité dans les références. Par conséquent, on suppose que la couche inférieure de Sora utilise également une méthode d’entraînement de type MAE.

Les chercheurs ont également exploré la simulation de lois physiques simples par le modèle génératif VDT. Ils ont mené des expériences sur l'ensemble de données Physion, dans lequel VDT utilise les 8 premières images comme images conditionnelles et prédit les 8 images suivantes. Dans le premier exemple (les deux rangées du haut) et le troisième exemple (les deux rangées du bas), VDT simule avec succès des processus physiques impliquant une balle se déplaçant le long d'une trajectoire parabolique et une balle roulant sur un avion et entrant en collision avec un cylindre. Dans le deuxième exemple (deux rangées du milieu), le VDT capture la vitesse/l'élan de la balle lorsqu'elle s'arrête avant de frapper le cylindre. Cela prouve que l'architecture Transformer peut apprendre certaines lois physiques.

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

VDT ablate partiellement la structure du réseau. On peut constater que les performances du modèle sont fortement liées aux GFlops et que certains détails de la structure du modèle lui-même n'ont pas un grand impact. Cela est également cohérent avec les conclusions de DiT.

Les chercheurs ont également mené des études d'ablation structurelle sur le modèle VDT. Les résultats montrent que la réduction de la taille du patch, l'augmentation du nombre de couches et l'augmentation de la taille cachée peuvent encore améliorer les performances du modèle. Les positions de l'attention temporelle et spatiale ainsi que le nombre de têtes d'attention ont peu d'impact sur les résultats du modèle. Certains compromis de conception sont nécessaires, mais dans l'ensemble, il n'y a pas de différence significative dans les performances du modèle tout en conservant les mêmes GFlops. Cependant, une augmentation des GFlops conduit à de meilleurs résultats, démontrant l’évolutivité de l’architecture VDT ou Transformer.

Les résultats des tests de VDT démontrent l'efficacité et la flexibilité de l'architecture Transformer dans le traitement de la génération de données vidéo. En raison des limites des ressources informatiques, les expériences VDT n'ont été menées que sur quelques petits ensembles de données académiques. Nous attendons avec impatience les recherches futures pour explorer davantage de nouvelles directions et applications de la technologie de génération vidéo basée sur le VDT, et nous attendons également avec impatience que les entreprises chinoises lancent des modèles Sora nationaux dès que possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

See all articles