L'intelligence artificielle deviendra l'épine dorsale du monde virtuel.
L'intelligence artificielle peut être combinée avec une variété de technologies connexes dans le métaverse, telles que la vision par ordinateur, le traitement du langage naturel, la blockchain et les jumeaux numériques.
En février, Zuckerberg a montré à quoi ressemblerait le Metaverse lors du premier événement virtuel de l'entreprise, Inside The Lab. Il a déclaré que la société développe une nouvelle série de modèles d'IA générative qui permettront aux utilisateurs de générer leurs propres avatars de réalité virtuelle simplement en les décrivant.
Zuckerberg a annoncé une série de projets à venir, tels que le projet CAIRaoke, un modèle neuronal entièrement de bout en bout pour créer des assistants vocaux sur des appareils pouvant aider les utilisateurs à communiquer plus naturellement avec leurs assistants vocaux. Pendant ce temps, Meta travaille dur pour créer un traducteur vocal universel qui fournit une traduction parole-parole directe pour toutes les langues.
Quelques mois plus tard, Meta a tenu sa promesse. Cependant, Meta n’est pas la seule entreprise technologique à avoir du skin dans le jeu. Des sociétés telles que Nvidia ont également publié leurs propres modèles d’IA auto-développés pour offrir une expérience Metaverse plus riche.
Transformateur pré-entraîné open source (OPT-175 milliards de paramètres)
GANverse 3D a été développé par NVIDIA AI Research. Il s'agit d'un modèle qui utilise l'apprentissage en profondeur pour traiter des images 2D en versions animées 3D. L'outil de l'année dernière, décrit dans un document de recherche publié à l'ICLR et au CVPR, peut générer des simulations plus rapidement et à moindre coût.
Ce modèle utilise StyleGAN pour générer automatiquement plusieurs vues à partir d'une seule image. L'application peut être importée en tant qu'extension de NVIDIA Omniverse pour restituer avec précision des objets 3D dans des mondes virtuels. Omniverse lancé par NVIDIA aide les utilisateurs à créer des simulations de leurs idées finales dans un environnement virtuel.
La production de modèles 3D est devenue un facteur clé dans la construction du Metaverse. Des détaillants tels que Nike et Forever21 ont installé leurs magasins virtuels dans le Metaverse pour stimuler les ventes en ligne.
L'équipe Reality Lab de Meta a collaboré avec l'Université du Texas pour construire un modèle d'intelligence artificielle afin d'améliorer la qualité sonore du métaespace. Ce modèle permet de faire correspondre l'audio et la vidéo dans une scène. Il transforme les clips audio pour leur donner l'impression qu'ils ont été enregistrés dans un environnement spécifique. Le modèle utilise un apprentissage auto-supervisé après avoir extrait des données de vidéos en ligne aléatoires. Idéalement, les utilisateurs devraient pouvoir visualiser leurs souvenirs préférés sur leurs lunettes AR et entendre les sons exacts produits par l'expérience réelle.
Meta AI a publié AViTAR en open source, ainsi que deux autres modèles acoustiques, ce qui est très rare étant donné que le son est une partie souvent négligée de l'expérience métaverse.
Le deuxième modèle acoustique publié par Meta AI est utilisé pour supprimer la réverbération dans l'acoustique.
Le modèle est entraîné sur un ensemble de données à grande échelle avec divers rendus audio réalistes à partir de modèles 3D de maisons. La réverbération réduit non seulement la qualité de l'audio, le rendant difficile à comprendre, mais elle améliore également la précision de la reconnaissance vocale automatique.
VIDA est unique en ce sens qu'il utilise des signaux audio et visuels pour l'observation. En améliorant les approches typiques uniquement audio, VIDA peut améliorer la parole et identifier les voix et les locuteurs.
VisualVoice, le troisième modèle acoustique publié par Meta AI, peut extraire la parole des vidéos. Comme VIDA, VisualVoice est formé sur les signaux audiovisuels provenant de vidéos non étiquetées. Le modèle a automatiquement séparé la parole.
Ce modèle a des scénarios d'application importants, tels que la création de technologies pour les malentendants, l'amélioration du son des appareils AR portables, la transcription de la parole à partir de vidéos en ligne dans des environnements bruyants, etc.
L'année dernière, NVIDIA a publié une version bêta ouverte d'Omnverse Audio2Face pour générer des animations faciales pilotées par l'IA pour correspondre à n'importe quelle voix off. Cet outil simplifie le processus long et fastidieux d'animation de jeux et d'effets visuels. L'application permet également aux utilisateurs d'émettre des commandes dans plusieurs langues.
Au début de cette année, Nvidia a publié une mise à jour de l'outil, ajoutant des fonctionnalités telles que BlendShape Generation pour aider les utilisateurs à créer un ensemble de blendhapes à partir d'un avatar neutre. De plus, la fonctionnalité d'un lecteur audio en streaming a été ajoutée, permettant la diffusion en continu de données audio à l'aide d'applications de synthèse vocale. Audio2Face met en place un modèle de personnage 3D pouvant être animé avec des pistes audio. L’audio est ensuite introduit dans un réseau neuronal profond. Les utilisateurs peuvent également modifier les caractères en post-traitement pour modifier leurs performances.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!