Maison > Périphériques technologiques > IA > le corps du texte

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de l'IA en 2022

王林
Libérer: 2023-04-13 19:34:01
avant
1920 Les gens l'ont consulté

Alors que le monde est encore en convalescence, la recherche n’a pas ralenti son rythme effréné, notamment dans le domaine de l’intelligence artificielle.

De plus, cette année, l'accent est mis sur l'éthique, les préjugés, la gouvernance et la transparence de l'IA.

L'intelligence artificielle et notre compréhension du cerveau humain et sa connexion à l'intelligence artificielle évoluent constamment, et dans un avenir proche, ces applications qui améliorent la qualité de nos vies brilleront.

Le célèbre blogueur Louis Bouchard a également dénombré 32 (!) avancées technologiques en IA en 2022 dans son blog.

Jetons un coup d'œil à ce que sont ces études étonnantes !

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Adresse de l'article : https://www.louisbouchard.ai/2022-ai-recap/

LaMA : Résolution Réparation Robuste des Grands Masques Basée sur la Convolution de Fourier

Vous devez avoir été dans cette situation : vous et vos amis avez pris une superbe photo. En conséquence, vous constatez que quelqu'un est derrière vous, détruisant la photo que vous souhaitez envoyer à Moments ou à Xiaohongshu. Mais désormais, ce n’est plus un problème.

La méthode d'inpainting de grands masques, robuste en résolution, basée sur la convolution de Fourier, permet aux utilisateurs de supprimer facilement le contenu indésirable des images. Les personnes et les poubelles peuvent facilement disparaître.

C'est comme un concepteur PS professionnel dans votre poche, il peut être facilement effacé en un seul clic.

Bien qu'apparemment simple, l'inpainting d'images est un problème que de nombreux chercheurs en IA résolvent depuis longtemps.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2109.07161

Adresse du projet : https://github.com/saic-mdal/lama

Démo Colab : https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb

Explication vidéo : https://youtu.be/Ia79AvGzveQ

Courte analyse : https://www.louisbouchard.ai/lama/

STIT : Montage de visage vidéo réel basé sur GAN

Vous devez avoir vécu une telle expérience : en regardant un film, vous constaterez que les acteurs du film ont l’air beaucoup plus jeunes qu’eux.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Will Smith dans Gemini Man

Auparavant, cela nécessitait que les professionnels consacrent des centaines, voire des milliers d'heures de travail, à monter manuellement les scènes dans lesquelles ces acteurs apparaissaient. Mais avec l’IA, vous pouvez le faire en quelques minutes.

En fait, de nombreuses technologies vous permettent d'augmenter votre sourire et de vous faire paraître plus jeune ou plus vieux, le tout automatiquement à l'aide d'algorithmes basés sur l'intelligence artificielle. C'est ce qu'on appelle les manipulations de visage basées sur l'IA dans la vidéo et représente l'état de l'art en 2022.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2201.08361

Adresse du projet : https://github.com/rotemtzaban/STIT

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/mqItu9XoUgk

Courte analyse : https://www.louisbouchard.ai/stitch-it-in-time/

NeROIC : Utilisation du rendu neuronal de la galerie en ligne

Le rendu neuronal peut générer des modèles 3D réalistes dans l'espace à travers des images d'objets, de personnes ou de scènes.

Avec cette technologie, vous n'avez besoin que de quelques images d'un objet, et vous pouvez demander à la machine de comprendre l'objet sur ces images et de simuler à quoi il ressemble dans l'espace.

Comprendre la forme physique des objets à travers des images est facile pour les humains car nous comprenons le monde réel. Mais pour une machine capable de voir uniquement les pixels, le défi est complètement différent.

Comment le modèle généré peut-il être intégré dans de nouveaux scénarios ? Que se passe-t-il si les conditions d'éclairage et les angles de la photo sont différents et que le modèle obtenu change en conséquence ? Telles sont les questions auxquelles Snapchat et l’Université de Californie du Sud devaient répondre dans cette nouvelle étude.

Lien papier : https://arxiv.org/abs/2201.02533

Adresse du projet : https://github.com/snap-research/NeROIC

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/88Pl9zD1Z78

Analyse courte : https://www.louisbouchard.ai/neroic/

SpeechPainter : Réparation de la parole dans des conditions de texte

Pour les images Pour Par exemple, la technologie d'inpainting basée sur l'apprentissage automatique peut non seulement supprimer le contenu, mais également remplir les parties manquantes de l'image en fonction des informations d'arrière-plan.

Pour la restauration vidéo, le défi n'est pas seulement de maintenir la cohérence d'une image à l'autre, mais aussi d'éviter de générer des artefacts erronés. Dans le même temps, lorsque vous réussissez à « expulser » une personne de la vidéo, vous devez également supprimer sa voix.

À cette fin, les chercheurs de Google ont proposé une nouvelle méthode de réparation vocale capable de corriger la grammaire, la prononciation et même de supprimer le bruit de fond dans les vidéos.

Lien papier : https://arxiv.org/abs/2202.07273

Explication vidéo : https://youtu.be/zIIc4bRf5Hg

Courte analyse : https:// www.louisbouchard.ai/speech-inpainting-with-ai/

GFP-GAN : Restauration de visages aveugles dans le monde réel à l'aide d'a priori faciaux génératifs

Avez-vous de vieilles photos que vous chérissez en raison de leur âge ? il y a quelque temps et la qualité de l'image est floue ? Ne vous inquiétez pas, avec Blind Face Restoration, vos souvenirs dureront pour toujours.

Ce nouveau modèle d'IA gratuit peut réparer la plupart de vos anciennes photos en un éclair. Cela fonctionne très bien même si la photo de pré-restauration est de très mauvaise qualité. Auparavant, c’était souvent tout un défi.

Ce qui est encore plus cool, c'est que vous pouvez l'essayer comme vous le souhaitez. Ils ont open source le code et créé une démo et une application en ligne que tout le monde peut essayer. Je pense que cette technologie va vous surprendre !

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2101.04061

Adresse du projet : https://github.com/TencentARC/GFPGAN

Démo Colab : https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo

Application en ligne : https://huggingface.co/spaces/akhaliq/GFPGAN

Vidéo Explication : https://youtu.be/nLDVtzcSeqM

Analyse courte : https://www.louisbouchard.ai/gfp-gan/

4D-Net : Apprentissage de l'alignement multimodal

Comment les voitures autonomes « voient-elles six directions » ?

Vous avez peut-être entendu parler des capteurs LiDAR ou d'autres caméras étranges utilisées par les constructeurs automobiles. Mais comment fonctionnent-ils, comment voient-ils le monde et que voient-ils exactement différemment de nous ?

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2109.01066

Contrairement à Tesla, qui utilise uniquement des caméras pour comprendre le monde, la plupart des constructeurs de voitures autonomes, comme Waymo, utiliser Il s'agit d'une caméra ordinaire et d'un capteur LiDAR 3D.

Ils ne génèrent pas d'images comme les caméras ordinaires, mais génèrent plutôt des nuages ​​de points 3D, utilisent les informations de détection RVB, mesurent la distance entre les objets et calculent le temps de trajet du laser pulsé qu'ils projettent sur l'objet.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Mais comment combiner efficacement ces informations et les faire comprendre au véhicule ? Que verra finalement le véhicule ? La conduite autonome est-elle suffisamment sûre ? Un nouveau document de recherche de Waymo et Google répondra à ces mystères.

Explication vidéo : https://youtu.be/0nJMnw1Ldks

Analyse courte : https://www.louisbouchard.ai/waymo-lidar/

NeRF instantané : basé sur multi -résolution Primitives neuronales instantanées codées par taux de hachage

Comment simuler à quoi ressemble le monde à travers des photos ?

Grâce aux modèles d'IA, les gens peuvent transformer les images capturées en modèles 3D de haute qualité. Cette tâche difficile permet aux chercheurs d’utiliser des images 2D pour créer à quoi ressemblerait un objet ou une personne dans un monde tridimensionnel.

En utilisant des primitives graphiques basées sur le codage de hachage, NVIDIA a réalisé 5 secondes d'entraînement NeRF et a obtenu de meilleurs résultats. En moins de deux ans de recherche, la vitesse d’entraînement du NeRF a été multipliée par plus de 1 000.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2201.05989

Adresse du projet : https://github.com/NVlabs/instant-ngp

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/UHQZBQOVAIU

Courte analyse : https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/

DALL· E 2 : Modèle de génération de texte en image basé sur les fonctionnalités CLIP

L'année dernière, OpenAI a publié le modèle de génération de texte en image DALL·E. Désormais, la version améliorée de DALL·E 2 est de nouveau là.

DALL·E 2 génère non seulement des images réalistes à partir de texte, mais sa sortie a une résolution quatre fois supérieure !

Cependant, l'amélioration des performances ne semble pas suffisante pour satisfaire OpenAI, ils ont donc également permis à DALL·E 2 d'acquérir une nouvelle compétence : la réparation d'images.

C'est-à-dire que vous pouvez éditer des images avec DALL·E 2 ou ajouter tous les nouveaux éléments de votre choix, comme un flamant rose en arrière-plan.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2204.06125

Explication vidéo : https://youtu.be/rdGVbPI42sA

Courte analyse : https ://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/

MyStyle : Génération préalable personnalisée

Google et l'Université de Tel Aviv ont proposé une technologie DeepFake très puissante. Avec lui, vous pouvez presque tout faire.

Prenez simplement des centaines de photos d'une personne, encodez son image et corrigez, modifiez ou créez le look de votre choix.

C’est à la fois étonnant et effrayant, surtout quand on voit les résultats générés.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien de papier: https://arxiv.org/abs/2203.17272

project Adresse: https://mystyle-personalized-prior.github.io/

Explication vidéo : https://youtu.be/BNWAEvFfFvQ

Analyse courte : https://www.louisbouchard.ai/mystyle/

OPT : modèle de langage Transformer pré-entraîné ouvert

Ce qui rend GPT-3 si puissant, c'est son architecture et sa taille.

Il possède 175 milliards de paramètres, soit deux fois le nombre de neurones du cerveau humain ! Un réseau neuronal d’une telle envergure a permis au modèle d’apprendre presque tout Internet, de comprendre comment nous écrivons, échangeons et comprenons le texte.

Juste au moment où les gens étaient étonnés par les puissantes fonctions de GPT-3, Meta a fait un grand pas vers la communauté open source. Ils ont sorti un modèle tout aussi puissant qui est désormais entièrement open source !

Non seulement ce modèle possède plus de 100 milliards de paramètres de niveau, mais aussi, comparé au GPT-3, l'OPT-175B est plus ouvert et accessible.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2205.01068

Adresse du projet : https://github.com/facebookresearch/metaseq

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien vidéo : https://youtu.be/Ejg0OunCi9U

Courte analyse : https://www.louisbouchard.ai/opt-meta/

BlobGAN : Représentation de scène spatialement discrète

Pour Comment décrire une scène, l'équipe de recherche d'Adobe a proposé une nouvelle méthode : BlobGAN.

BlobGAN utilise des "blobs" pour décrire les objets de la scène. Les chercheurs peuvent déplacer les blobs, les rendant plus grands, plus petits ou même supprimés, ce qui aura le même effet sur l'objet qu'ils représentent dans l'image.

Comme les auteurs partagent leurs résultats, vous pouvez créer de nouvelles images dans l'ensemble de données en dupliquant des blobs.

Maintenant, le code de BlobGAN est open source, amis intéressés, dépêchez-vous et essayez-le !

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2205.02837

Adresse du projet : https://github.com/dave-epstein/blobgan

Démo Colab : https://colab.research.google.com/drive/1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/mnEzjpiA_4E

Courte analyse : https://www.louisbouchard.ai/blobgan/

Gato : Agent généraliste

DeepMind a construit un seul agent "général" Gato. Vous pouvez jouer à des jeux Atari, créer des images de sous-titres, discuter avec des gens et contrôler des bras robotiques !

Ce qui est encore plus choquant, c'est qu'il peut effectuer toutes les tâches après un entraînement une seule fois et en utilisant les mêmes poids.

Gato est un agent multimodal. Cela signifie qu’il peut à la fois créer des légendes pour les images et agir comme un chatbot pour répondre aux questions.

Bien que GPT-3 puisse également discuter avec vous, il est évident que Gato peut faire plus. Après tout, il existe souvent des IA capables de discuter, mais peu d’entre elles peuvent jouer à des jeux avec elles.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2205.06175

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/xZKSWNv6Esc

bref Analyse de l'histoire : https://www.louisbouchard.ai/deepmind-gato/

Imagen : modèle de diffusion de texte à image avec une compréhension approfondie du langage

Si vous pensez que DALL·E 2 est excellent, alors vous pourriez aussi jetez un oeil. Ce nouveau modèle de Google Brain - Imagen - peut faire quelque chose à ce sujet.

DALL·E est étonnant, mais les images générées manquent souvent de réalisme. C'est le problème que vise à résoudre Imagen développé par l'équipe Google.

Selon des benchmarks comparant des modèles texte-image, Imagen a obtenu des résultats remarquables en synthèse texte-image avec des intégrations de texte pour de grands modèles de langage. Les images résultantes sont à la fois imaginatives et réalistes.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2205.11487

Adresse du projet : https://imagen.research.google/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/qhtYPhPWCsI

Analyse courte : https://www.louisbouchard.ai/google-brain-imagen/

DALL·E Mini

Un ensemble Les images effrayantes de Xiao Zha ont été populaires sur Twitter pendant un certain temps. Cet ensemble d'œuvres San au bon rapport qualité-prix a été créé par DALL·E mini.

En tant que « Youth Edition » de la famille DALL·E, DALL·E mini est gratuit et open source. Le code a été laissé, quel sera le prochain personnage à être modifié magiquement ?

Adresse du projet : https://github.com/borisdayma/dalle-mini

Expérience en ligne : https://huggingface.co/spaces/dalle-mini/dalle-mini

Explication vidéo : https://youtu.be/K3bZXXjW788

Analyse courte : https://www.louisbouchard.ai/dalle-mini/

NLLB : Aucune langue laissée pour compte

Meta AI a publié ce modèle NLLB-200. Le concept de dénomination du modèle vient de « No Language Left Behind » et peut réaliser une traduction arbitraire dans plus de 200 langues.

Le point culminant de la recherche est que les chercheurs ont amélioré la plupart des formations linguistiques à faibles ressources de plusieurs ordres de grandeur, tout en obtenant des résultats SOTA pour plus de 200 traductions linguistiques.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://research.facebook.com/publications/no-lingual-left-behind/

Adresse du projet : https://github.com/facebookresearch/ fairseq/tree/nllb

Expérience en ligne : https://nllb.metademolab.com/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/2G4NeG17Eis

Courte analyse : https://www.louisbouchard.ai/no-lingual-left-behind/

Système de détection de vibrations optiques à double obturateur

Le son peut-il également être vu ?

Cette recherche, qui a remporté le prix honoraire du meilleur article CVPR 2022, propose une nouvelle méthode à double obturateur pour détecter simultanément les surfaces à grande vitesse (jusqu'à 63 kHz) de plusieurs sources de scènes en utilisant une caméra « lente » (130 FPS) Vibration , et ce, en capturant les vibrations provoquées par la source audio.

Ainsi, divers besoins tels que la séparation des instruments de musique et l'élimination du bruit peuvent être réalisés.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

Adresse du projet : https://imagerie.cs.cmu .edu/vibration/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/n1M8ZVspJcs

Courte analyse : https://www.louisbouchard.ai/cvpr-2022-best -paper/

Make-A-Scene : génération de texte en image basée sur une scène avec des priorités humaines

Make-A-Scene n'est pas seulement "un autre DALL·E".

Bien que ce soit vraiment cool que DALL·E puisse générer des images aléatoires basées sur des invites textuelles, cela limite également le contrôle de l'utilisateur sur les résultats générés.

L'objectif de Meta est de promouvoir l'expression créative, en combinant cette tendance du texte à l'image avec le modèle précédent de l'esquisse à l'image, ce qui donne naissance à « Make-A-Scene » : un pont entre le texte et la génération d'images conditionnées par un croquis. .Un merveilleux mélange.

Lien papier : https://arxiv.org/abs/2203.13131

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/K3bZXXjW788

Courte analyse : https://www.louisbouchard.ai/make-a-scene/

BANMo : À partir de n'importe quelle vidéo un modèle d'animation 3D cible

Sur la base de cette recherche de Meta, il vous suffit de donner n'importe quelle vidéo qui capture des objets déformables, comme le téléchargement de plusieurs vidéos de chatons et de chiots, et BANMo peut les combiner à partir de milliers d'images 2D. intégré dans un espace canonique pour reconstruire un modèle 3D animé modifiable sans avoir besoin de modèles de forme prédéfinis.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2112.12761

Adresse du projet : https://github.com/facebookresearch/banmo

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/jDTy-liFoCQ

Analyse courte : https://www.louisbouchard.ai/banmo/

Utilisation d'un modèle de diffusion latente pour la synthèse d'images haute résolution

Les modèles de génération d'images populaires de cette année, DALL·E, Imagen et Stable Diffusion, qui font sensation, qu'ont en commun ces puissants modèles de génération d'images ? Outre leur coût de calcul élevé et leur temps de formation important, ils reposent tous sur le même mécanisme de diffusion.

Les modèles de diffusion ont récemment obtenu des résultats SOTA dans la plupart des tâches d'image, y compris la conversion texte-image à l'aide de DALL·E, et de nombreuses autres tâches liées à la génération d'images telles que l'inpainting d'image, le transfert de style ou la super-résolution d'image.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2112.10752

Adresse du projet : https://github.com/CompVis/latent-diffusion

Explication vidéo : https://youtu.be/RGBNdD3Wn-g

Analyse courte : https://www.louisbouchard.ai/latent-diffusion-models/

PSG : Génération d'images basées sur la scène Model

AI peut vous aider à identifier avec précision des objets dans des images, mais comprendre la relation entre les objets et l'environnement n'est pas si facile.

À cette fin, des chercheurs de Nanyang Polytechnic ont proposé une tâche de génération de graphiques de scène panoptique (PSG) basée sur la segmentation panoramique.

Par rapport à la génération traditionnelle de graphiques de scène basée sur des images de détection, la tâche PSG nécessite de générer de manière complète toutes les relations dans l'image (y compris la relation entre les objets et les objets, la relation entre les objets et l'arrière-plan et la relation entre l'arrière-plan et l'arrière-plan) , et en utilisant des blocs de segmentation précis pour localiser les objets.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2207.11247

Adresse du projet : https://psgdataset.org/

Candidature en ligne : https : //huggingface.co/spaces/ECCV2022/PSG

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/cSsE_H_0Cr8

Courte analyse : https://www.louisbouchard.ai /psg/

Utilisez l'inversion de texte pour obtenir une génération personnalisée de texte en image

Les modèles de génération d'images des grands fabricants cette année peuvent être considérés comme les Huit Immortels traversant la mer, chacun montrant ses pouvoirs magiques, mais comment faire en sorte que le modèle génère des œuvres d'image d'un style spécifique ?

Des chercheurs de l'Université de Tel Aviv et NVIDIA ont collaboré pour lancer un modèle de génération d'images personnalisé qui permet de créer les images que vous souhaitez.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2208.01618

Adresse du projet : https://textual-inversion.github.io/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/f3oXa7_SYek

Courte analyse : https://www.louisbouchard.ai/imageworthoneword/

Modèle de pré-entraînement d'image linguistique pour la reconnaissance vidéo générale

L'apprentissage de modèles de textes visuels a sans aucun doute connu un grand succès, mais comment étendre cette nouvelle méthode de pré-formation linguistique en image au domaine vidéo reste une question ouverte.

Des chercheurs de Microsoft et de l'Académie chinoise des sciences ont proposé une méthode simple et efficace pour adapter directement des modèles langage-image pré-entraînés à la reconnaissance vidéo, plutôt que de pré-entraîner de nouveaux modèles à partir de zéro.

Lien papier : https://arxiv.org/abs/2208.02816

Adresse du projet : https://github.com/microsoft/VideoX/tree/master/X-CLIP

Explication vidéo : https://youtu.be/seb4lmVPEe8

Courte analyse : https://www.louisbouchard.ai/general-video-recognition/

Make-A-Video : Modèle vidéo de génération de texte en un clic

Le peintre peut peindre librement sur la toile Avec une image aussi claire et fluide, pouvez-vous penser que chaque image de la vidéo est générée par l'IA ?

Make-A-Video lancé par MetaAI peut générer des vidéos de styles différents en quelques secondes en saisissant simplement quelques mots. Il n'est pas exagéré de l'appeler la "version vidéo de DALL·E".

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2209.14792

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/MWwESVyHWto

bref Analyse de l'histoire : https://www.louisbouchard.ai/make-a-video/

Whisper : Modèle de reconnaissance vocale faiblement supervisé à grande échelle

Avez-vous déjà pensé à un logiciel de traduction capable de traduire rapidement le discours dans la vidéo ? , même ces langues que vous ne comprenez pas vous-même ?

Whisper open source d’OpenAI peut faire exactement cela.

Whisper a été formé sur plus de 680 000 heures de données multilingues. Il peut reconnaître les sons multilingues dans des environnements bruyants et les convertir en texte.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2212.04356

Adresse du projet : https://github.com/openai/whisper

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/uFOkMme19Zs

Courte analyse : https://www.louisbouchard.ai/whisper/

DreamFusion : Utilisez des images 2D pour générer Modèle 3D

Le texte peut générer des images, des vidéos et des modèles 3D~

DreamFusion lancé par Google peut générer des modèles 3D en un seul clic en utilisant un modèle de diffusion texte-image 2D pré-entraîné sur des milliards de paires image-texte Les modèles de diffusion entraînés sont à l'origine de percées récentes dans la synthèse de modèles texte en 3D.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2209.14988

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/epuU0VRIcjE

bref Analyse de l'histoire : https://www.louisbouchard.ai/dreamfusion/

Imagic : Une véritable méthode d'édition d'images basée sur le modèle de diffusion

En utilisant des modèles de génération d'images texte tels que DALL·E, vous pouvez obtenir l'image souhaitée image en saisissant simplement une ligne de texte Mais les images générées par l’IA ne sont parfois pas si parfaites.

Des chercheurs de Google, de l'Institut israélien de technologie et de l'Institut des sciences Weizmann ont introduit une véritable méthode d'édition d'images basée sur le modèle de diffusion - Imagic, qui peut réaliser des PS de vraies photos en utilisant uniquement du texte.

Par exemple, nous pouvons changer la pose et la composition d'une personne tout en conservant ses caractéristiques d'origine, ou je veux qu'un chien debout s'assoie et qu'un oiseau déploie ses ailes.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2210.09276

Adresse du projet : https://imagic-editing.github.io/

Vidéo Explication : https://youtu.be/gbpPQ5kVJhM

Analyse courte : https://www.louisbouchard.ai/imagic/

eDiffi : modèle de synthèse d'image texte de meilleure qualité

que DALL· Les modèles de synthèse d'image plus puissants de E et Stable Diffusion sont là !

Il s'agit de l'eDiffi de NVIDIA, qui peut générer des images de meilleure qualité avec plus de précision. De plus, l'ajout de modèles de pinceaux peut ajouter plus de créativité et de flexibilité à vos travaux.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2211.01324

Adresse du projet : https://deepimagination.cc/eDiff-I/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/grwp-ht_ixo

Courte analyse : https://www.louisbouchard.ai/ediffi/

Infinite Nature : Apprendre à partir d'une seule image Infini visualiser la génération de scènes naturelles

Avez-vous déjà pensé à prendre une photo puis à voler dans l'image comme si vous ouvriez une porte ?

Des chercheurs de Google et de l'Université Cornell ont transformé cette imagination en réalité. Il s'agit d'InfiniteNature-Zero, qui peut générer des vues illimitées de scènes naturelles à partir d'une seule image.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2207.11148

Adresse du projet : https://infinite-nature.github.io/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/FQzGhukV-l0

Analyse courte : https://www.louisbouchard.ai/infinitenature-zero

Galactica : le grand langage de la science Modèle

Galactica développé par Meta est un grand modèle de langage comparable en taille à GPT-3, mais son domaine d'expertise est la connaissance scientifique.

Le modèle peut rédiger des livres blancs gouvernementaux, des revues de presse, des pages Wikipédia et du code, il sait également citer et écrire des équations. C’est un gros problème pour l’intelligence artificielle et la science.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2211.09085

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/2GfxkCWWzLU

bref Analyse de l'histoire : https://www.louisbouchard.ai/galactica/

RAD-NeRF : Modèle de synthèse de portrait en temps réel basé sur la décomposition spatiale audio

Depuis l'émergence de DeepFake et NeRF, l'IA semble changer de visage être devenu monnaie courante. Mais il y a un problème. Les visages remplacés par l’IA révèlent parfois leurs secrets car ils ne correspondent pas à la forme de la bouche.

L'émergence de RAD-NeRF peut résoudre ce problème. Il peut effectuer une synthèse de portrait en temps réel des locuteurs apparaissant dans la vidéo et prend également en charge les avatars personnalisés.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://arxiv.org/abs/2211.12368

Adresse du projet : https://me.kiui.moe/radnerf/

Vidéo Comment Le travail à succès de l'IA de l'année pourrait-il se faire sans ChatGPT ? Celui-ci est devenu populaire partout sur Internet et a été développé par des internautes pour écrire des articles pornographiques, du code et d'autres applications. Si vous ne le savez pas encore, venez vite ici. jetez un oeil!

Explication vidéo : https://youtu.be/AsFgn8vU-tQ

Courte analyse : https://www.louisbouchard.ai/chatgpt/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

peut être utilisée directement le vieillissement du visage vidéo pour une utilisation en production

Bien que les modèles de vision par ordinateur actuels puissent générer l'âge du visage, le transfert de style, etc., cela n'a qu'une apparence cool et n'a presque aucun effet dans les applications réelles. La technologie existante souffre généralement de perte et de discrimination des caractéristiques du visage. dans les images vidéo suivantes nécessite souvent un montage secondaire manuel.

Récemment, Disney a publié la première méthode pratique et entièrement automatisée pour régénérer les visages dans les images vidéo destinées à la production, FRAN (Face Re-Aging Network), annonçant officiellement le besoin de maquilleurs dans les films. La technologie qui change l'âge des acteurs visuellement a pris fin.

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Lien papier : https://dl.acm.org/doi/pdf/10.1145/3550454.3555520

Adresse du projet : https://studios.disneyresearch.com/2022/11 /30/production-ready-face-re-aging-for-visual-effects/

Des recherches vraiment importantes ! 32 articles examinent de près les points chauds de lIA en 2022

Explication vidéo : https://youtu.be/WC03N0NFfwk

Courte analyse : https ://www.louisbouchard.ai/disney-re-age/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
ai
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal