Alors que le monde est encore en convalescence, la recherche n’a pas ralenti son rythme effréné, notamment dans le domaine de l’intelligence artificielle.
De plus, cette année, l'accent est mis sur l'éthique, les préjugés, la gouvernance et la transparence de l'IA.
L'intelligence artificielle et notre compréhension du cerveau humain et sa connexion à l'intelligence artificielle évoluent constamment, et dans un avenir proche, ces applications qui améliorent la qualité de nos vies brilleront.
Le célèbre blogueur Louis Bouchard a également dénombré 32 (!) avancées technologiques en IA en 2022 dans son blog.
Jetons un coup d'œil à ce que sont ces études étonnantes !
Adresse de l'article : https://www.louisbouchard.ai/2022-ai-recap/
LaMA : Résolution Réparation Robuste des Grands Masques Basée sur la Convolution de Fourier
Vous devez avoir été dans cette situation : vous et vos amis avez pris une superbe photo. En conséquence, vous constatez que quelqu'un est derrière vous, détruisant la photo que vous souhaitez envoyer à Moments ou à Xiaohongshu. Mais désormais, ce n’est plus un problème.
La méthode d'inpainting de grands masques, robuste en résolution, basée sur la convolution de Fourier, permet aux utilisateurs de supprimer facilement le contenu indésirable des images. Les personnes et les poubelles peuvent facilement disparaître.
C'est comme un concepteur PS professionnel dans votre poche, il peut être facilement effacé en un seul clic.
Bien qu'apparemment simple, l'inpainting d'images est un problème que de nombreux chercheurs en IA résolvent depuis longtemps.
Lien papier : https://arxiv.org/abs/2109.07161
Adresse du projet : https://github.com/saic-mdal/lama
Démo Colab : https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb
Explication vidéo : https://youtu.be/Ia79AvGzveQ
Courte analyse : https://www.louisbouchard.ai/lama/
Vous devez avoir vécu une telle expérience : en regardant un film, vous constaterez que les acteurs du film ont l’air beaucoup plus jeunes qu’eux.
Will Smith dans Gemini Man
Auparavant, cela nécessitait que les professionnels consacrent des centaines, voire des milliers d'heures de travail, à monter manuellement les scènes dans lesquelles ces acteurs apparaissaient. Mais avec l’IA, vous pouvez le faire en quelques minutes.
En fait, de nombreuses technologies vous permettent d'augmenter votre sourire et de vous faire paraître plus jeune ou plus vieux, le tout automatiquement à l'aide d'algorithmes basés sur l'intelligence artificielle. C'est ce qu'on appelle les manipulations de visage basées sur l'IA dans la vidéo et représente l'état de l'art en 2022.
Lien papier : https://arxiv.org/abs/2201.08361
Adresse du projet : https://github.com/rotemtzaban/STIT
Explication vidéo : https://youtu.be/mqItu9XoUgk
Courte analyse : https://www.louisbouchard.ai/stitch-it-in-time/
Le rendu neuronal peut générer des modèles 3D réalistes dans l'espace à travers des images d'objets, de personnes ou de scènes.
Avec cette technologie, vous n'avez besoin que de quelques images d'un objet, et vous pouvez demander à la machine de comprendre l'objet sur ces images et de simuler à quoi il ressemble dans l'espace.
Comprendre la forme physique des objets à travers des images est facile pour les humains car nous comprenons le monde réel. Mais pour une machine capable de voir uniquement les pixels, le défi est complètement différent.
Comment le modèle généré peut-il être intégré dans de nouveaux scénarios ? Que se passe-t-il si les conditions d'éclairage et les angles de la photo sont différents et que le modèle obtenu change en conséquence ? Telles sont les questions auxquelles Snapchat et l’Université de Californie du Sud devaient répondre dans cette nouvelle étude.
Lien papier : https://arxiv.org/abs/2201.02533
Adresse du projet : https://github.com/snap-research/NeROIC
Explication vidéo : https://youtu.be/88Pl9zD1Z78
Analyse courte : https://www.louisbouchard.ai/neroic/
Pour les images Pour Par exemple, la technologie d'inpainting basée sur l'apprentissage automatique peut non seulement supprimer le contenu, mais également remplir les parties manquantes de l'image en fonction des informations d'arrière-plan.
Pour la restauration vidéo, le défi n'est pas seulement de maintenir la cohérence d'une image à l'autre, mais aussi d'éviter de générer des artefacts erronés. Dans le même temps, lorsque vous réussissez à « expulser » une personne de la vidéo, vous devez également supprimer sa voix.
À cette fin, les chercheurs de Google ont proposé une nouvelle méthode de réparation vocale capable de corriger la grammaire, la prononciation et même de supprimer le bruit de fond dans les vidéos.
Lien papier : https://arxiv.org/abs/2202.07273
Explication vidéo : https://youtu.be/zIIc4bRf5Hg
Courte analyse : https:// www.louisbouchard.ai/speech-inpainting-with-ai/
GFP-GAN : Restauration de visages aveugles dans le monde réel à l'aide d'a priori faciaux génératifs
Avez-vous de vieilles photos que vous chérissez en raison de leur âge ? il y a quelque temps et la qualité de l'image est floue ? Ne vous inquiétez pas, avec Blind Face Restoration, vos souvenirs dureront pour toujours.
Ce nouveau modèle d'IA gratuit peut réparer la plupart de vos anciennes photos en un éclair. Cela fonctionne très bien même si la photo de pré-restauration est de très mauvaise qualité. Auparavant, c’était souvent tout un défi.
Ce qui est encore plus cool, c'est que vous pouvez l'essayer comme vous le souhaitez. Ils ont open source le code et créé une démo et une application en ligne que tout le monde peut essayer. Je pense que cette technologie va vous surprendre !
Lien papier : https://arxiv.org/abs/2101.04061
Adresse du projet : https://github.com/TencentARC/GFPGAN
Démo Colab : https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo
Application en ligne : https://huggingface.co/spaces/akhaliq/GFPGAN
Vidéo Explication : https://youtu.be/nLDVtzcSeqM
Analyse courte : https://www.louisbouchard.ai/gfp-gan/
4D-Net : Apprentissage de l'alignement multimodal
Vous avez peut-être entendu parler des capteurs LiDAR ou d'autres caméras étranges utilisées par les constructeurs automobiles. Mais comment fonctionnent-ils, comment voient-ils le monde et que voient-ils exactement différemment de nous ?
Lien papier : https://arxiv.org/abs/2109.01066
Contrairement à Tesla, qui utilise uniquement des caméras pour comprendre le monde, la plupart des constructeurs de voitures autonomes, comme Waymo, utiliser Il s'agit d'une caméra ordinaire et d'un capteur LiDAR 3D.
Ils ne génèrent pas d'images comme les caméras ordinaires, mais génèrent plutôt des nuages de points 3D, utilisent les informations de détection RVB, mesurent la distance entre les objets et calculent le temps de trajet du laser pulsé qu'ils projettent sur l'objet.
Mais comment combiner efficacement ces informations et les faire comprendre au véhicule ? Que verra finalement le véhicule ? La conduite autonome est-elle suffisamment sûre ? Un nouveau document de recherche de Waymo et Google répondra à ces mystères.
Explication vidéo : https://youtu.be/0nJMnw1Ldks
Analyse courte : https://www.louisbouchard.ai/waymo-lidar/
NeRF instantané : basé sur multi -résolution Primitives neuronales instantanées codées par taux de hachage
Comment simuler à quoi ressemble le monde à travers des photos ?
Grâce aux modèles d'IA, les gens peuvent transformer les images capturées en modèles 3D de haute qualité. Cette tâche difficile permet aux chercheurs d’utiliser des images 2D pour créer à quoi ressemblerait un objet ou une personne dans un monde tridimensionnel.
En utilisant des primitives graphiques basées sur le codage de hachage, NVIDIA a réalisé 5 secondes d'entraînement NeRF et a obtenu de meilleurs résultats. En moins de deux ans de recherche, la vitesse d’entraînement du NeRF a été multipliée par plus de 1 000.
Lien papier : https://arxiv.org/abs/2201.05989
Adresse du projet : https://github.com/NVlabs/instant-ngp
Explication vidéo : https://youtu.be/UHQZBQOVAIU
Courte analyse : https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/
DALL· E 2 : Modèle de génération de texte en image basé sur les fonctionnalités CLIP
L'année dernière, OpenAI a publié le modèle de génération de texte en image DALL·E. Désormais, la version améliorée de DALL·E 2 est de nouveau là.
DALL·E 2 génère non seulement des images réalistes à partir de texte, mais sa sortie a une résolution quatre fois supérieure !
Cependant, l'amélioration des performances ne semble pas suffisante pour satisfaire OpenAI, ils ont donc également permis à DALL·E 2 d'acquérir une nouvelle compétence : la réparation d'images.
C'est-à-dire que vous pouvez éditer des images avec DALL·E 2 ou ajouter tous les nouveaux éléments de votre choix, comme un flamant rose en arrière-plan.
Lien papier : https://arxiv.org/abs/2204.06125
Explication vidéo : https://youtu.be/rdGVbPI42sA
Courte analyse : https ://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/
MyStyle : Génération préalable personnalisée
Google et l'Université de Tel Aviv ont proposé une technologie DeepFake très puissante. Avec lui, vous pouvez presque tout faire.
Prenez simplement des centaines de photos d'une personne, encodez son image et corrigez, modifiez ou créez le look de votre choix.
C’est à la fois étonnant et effrayant, surtout quand on voit les résultats générés.
Lien de papier: https://arxiv.org/abs/2203.17272
project Adresse: https://mystyle-personalized-prior.github.io/
Explication vidéo : https://youtu.be/BNWAEvFfFvQ
Analyse courte : https://www.louisbouchard.ai/mystyle/
OPT : modèle de langage Transformer pré-entraîné ouvert
Ce qui rend GPT-3 si puissant, c'est son architecture et sa taille.
Il possède 175 milliards de paramètres, soit deux fois le nombre de neurones du cerveau humain ! Un réseau neuronal d’une telle envergure a permis au modèle d’apprendre presque tout Internet, de comprendre comment nous écrivons, échangeons et comprenons le texte.
Juste au moment où les gens étaient étonnés par les puissantes fonctions de GPT-3, Meta a fait un grand pas vers la communauté open source. Ils ont sorti un modèle tout aussi puissant qui est désormais entièrement open source !
Non seulement ce modèle possède plus de 100 milliards de paramètres de niveau, mais aussi, comparé au GPT-3, l'OPT-175B est plus ouvert et accessible.
Lien papier : https://arxiv.org/abs/2205.01068
Adresse du projet : https://github.com/facebookresearch/metaseq
Lien vidéo : https://youtu.be/Ejg0OunCi9U
Courte analyse : https://www.louisbouchard.ai/opt-meta/
BlobGAN : Représentation de scène spatialement discrète
Pour Comment décrire une scène, l'équipe de recherche d'Adobe a proposé une nouvelle méthode : BlobGAN.
BlobGAN utilise des "blobs" pour décrire les objets de la scène. Les chercheurs peuvent déplacer les blobs, les rendant plus grands, plus petits ou même supprimés, ce qui aura le même effet sur l'objet qu'ils représentent dans l'image.
Comme les auteurs partagent leurs résultats, vous pouvez créer de nouvelles images dans l'ensemble de données en dupliquant des blobs.
Maintenant, le code de BlobGAN est open source, amis intéressés, dépêchez-vous et essayez-le !
Lien papier : https://arxiv.org/abs/2205.02837
Adresse du projet : https://github.com/dave-epstein/blobgan
Démo Colab : https://colab.research.google.com/drive/1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu
Explication vidéo : https://youtu.be/mnEzjpiA_4E
Courte analyse : https://www.louisbouchard.ai/blobgan/
DeepMind a construit un seul agent "général" Gato. Vous pouvez jouer à des jeux Atari, créer des images de sous-titres, discuter avec des gens et contrôler des bras robotiques !
Ce qui est encore plus choquant, c'est qu'il peut effectuer toutes les tâches après un entraînement une seule fois et en utilisant les mêmes poids.
Gato est un agent multimodal. Cela signifie qu’il peut à la fois créer des légendes pour les images et agir comme un chatbot pour répondre aux questions.
Bien que GPT-3 puisse également discuter avec vous, il est évident que Gato peut faire plus. Après tout, il existe souvent des IA capables de discuter, mais peu d’entre elles peuvent jouer à des jeux avec elles.
Lien papier : https://arxiv.org/abs/2205.06175
Explication vidéo : https://youtu.be/xZKSWNv6Esc
bref Analyse de l'histoire : https://www.louisbouchard.ai/deepmind-gato/
Imagen : modèle de diffusion de texte à image avec une compréhension approfondie du langage
Si vous pensez que DALL·E 2 est excellent, alors vous pourriez aussi jetez un oeil. Ce nouveau modèle de Google Brain - Imagen - peut faire quelque chose à ce sujet.
DALL·E est étonnant, mais les images générées manquent souvent de réalisme. C'est le problème que vise à résoudre Imagen développé par l'équipe Google.
Selon des benchmarks comparant des modèles texte-image, Imagen a obtenu des résultats remarquables en synthèse texte-image avec des intégrations de texte pour de grands modèles de langage. Les images résultantes sont à la fois imaginatives et réalistes.
Lien papier : https://arxiv.org/abs/2205.11487
Adresse du projet : https://imagen.research.google/
Explication vidéo : https://youtu.be/qhtYPhPWCsI
Analyse courte : https://www.louisbouchard.ai/google-brain-imagen/
Un ensemble Les images effrayantes de Xiao Zha ont été populaires sur Twitter pendant un certain temps. Cet ensemble d'œuvres San au bon rapport qualité-prix a été créé par DALL·E mini.
En tant que « Youth Edition » de la famille DALL·E, DALL·E mini est gratuit et open source. Le code a été laissé, quel sera le prochain personnage à être modifié magiquement ?
Adresse du projet : https://github.com/borisdayma/dalle-mini
Expérience en ligne : https://huggingface.co/spaces/dalle-mini/dalle-mini
Explication vidéo : https://youtu.be/K3bZXXjW788
Analyse courte : https://www.louisbouchard.ai/dalle-mini/
Meta AI a publié ce modèle NLLB-200. Le concept de dénomination du modèle vient de « No Language Left Behind » et peut réaliser une traduction arbitraire dans plus de 200 langues.
Le point culminant de la recherche est que les chercheurs ont amélioré la plupart des formations linguistiques à faibles ressources de plusieurs ordres de grandeur, tout en obtenant des résultats SOTA pour plus de 200 traductions linguistiques.
Lien papier : https://research.facebook.com/publications/no-lingual-left-behind/
Adresse du projet : https://github.com/facebookresearch/ fairseq/tree/nllb
Expérience en ligne : https://nllb.metademolab.com/
Explication vidéo : https://youtu.be/2G4NeG17Eis
Courte analyse : https://www.louisbouchard.ai/no-lingual-left-behind/
Système de détection de vibrations optiques à double obturateur
Cette recherche, qui a remporté le prix honoraire du meilleur article CVPR 2022, propose une nouvelle méthode à double obturateur pour détecter simultanément les surfaces à grande vitesse (jusqu'à 63 kHz) de plusieurs sources de scènes en utilisant une caméra « lente » (130 FPS) Vibration , et ce, en capturant les vibrations provoquées par la source audio.
Ainsi, divers besoins tels que la séparation des instruments de musique et l'élimination du bruit peuvent être réalisés.
Lien papier : https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf
Adresse du projet : https://imagerie.cs.cmu .edu/vibration/
Explication vidéo : https://youtu.be/n1M8ZVspJcs
Courte analyse : https://www.louisbouchard.ai/cvpr-2022-best -paper/
Make-A-Scene : génération de texte en image basée sur une scène avec des priorités humaines
Make-A-Scene n'est pas seulement "un autre DALL·E".
Bien que ce soit vraiment cool que DALL·E puisse générer des images aléatoires basées sur des invites textuelles, cela limite également le contrôle de l'utilisateur sur les résultats générés.
L'objectif de Meta est de promouvoir l'expression créative, en combinant cette tendance du texte à l'image avec le modèle précédent de l'esquisse à l'image, ce qui donne naissance à « Make-A-Scene » : un pont entre le texte et la génération d'images conditionnées par un croquis. .Un merveilleux mélange.
Lien papier : https://arxiv.org/abs/2203.13131
Explication vidéo : https://youtu.be/K3bZXXjW788
Courte analyse : https://www.louisbouchard.ai/make-a-scene/
BANMo : À partir de n'importe quelle vidéo un modèle d'animation 3D cible
Sur la base de cette recherche de Meta, il vous suffit de donner n'importe quelle vidéo qui capture des objets déformables, comme le téléchargement de plusieurs vidéos de chatons et de chiots, et BANMo peut les combiner à partir de milliers d'images 2D. intégré dans un espace canonique pour reconstruire un modèle 3D animé modifiable sans avoir besoin de modèles de forme prédéfinis.
Lien papier : https://arxiv.org/abs/2112.12761
Adresse du projet : https://github.com/facebookresearch/banmo
Explication vidéo : https://youtu.be/jDTy-liFoCQ
Analyse courte : https://www.louisbouchard.ai/banmo/
Utilisation d'un modèle de diffusion latente pour la synthèse d'images haute résolution
Les modèles de génération d'images populaires de cette année, DALL·E, Imagen et Stable Diffusion, qui font sensation, qu'ont en commun ces puissants modèles de génération d'images ? Outre leur coût de calcul élevé et leur temps de formation important, ils reposent tous sur le même mécanisme de diffusion.
Les modèles de diffusion ont récemment obtenu des résultats SOTA dans la plupart des tâches d'image, y compris la conversion texte-image à l'aide de DALL·E, et de nombreuses autres tâches liées à la génération d'images telles que l'inpainting d'image, le transfert de style ou la super-résolution d'image.
Lien papier : https://arxiv.org/abs/2112.10752
Adresse du projet : https://github.com/CompVis/latent-diffusion
Explication vidéo : https://youtu.be/RGBNdD3Wn-g
Analyse courte : https://www.louisbouchard.ai/latent-diffusion-models/
PSG : Génération d'images basées sur la scène Model
AI peut vous aider à identifier avec précision des objets dans des images, mais comprendre la relation entre les objets et l'environnement n'est pas si facile.
À cette fin, des chercheurs de Nanyang Polytechnic ont proposé une tâche de génération de graphiques de scène panoptique (PSG) basée sur la segmentation panoramique.
Par rapport à la génération traditionnelle de graphiques de scène basée sur des images de détection, la tâche PSG nécessite de générer de manière complète toutes les relations dans l'image (y compris la relation entre les objets et les objets, la relation entre les objets et l'arrière-plan et la relation entre l'arrière-plan et l'arrière-plan) , et en utilisant des blocs de segmentation précis pour localiser les objets.
Lien papier : https://arxiv.org/abs/2207.11247
Adresse du projet : https://psgdataset.org/
Candidature en ligne : https : //huggingface.co/spaces/ECCV2022/PSG
Explication vidéo : https://youtu.be/cSsE_H_0Cr8
Courte analyse : https://www.louisbouchard.ai /psg/
Utilisez l'inversion de texte pour obtenir une génération personnalisée de texte en image
Les modèles de génération d'images des grands fabricants cette année peuvent être considérés comme les Huit Immortels traversant la mer, chacun montrant ses pouvoirs magiques, mais comment faire en sorte que le modèle génère des œuvres d'image d'un style spécifique ?
Des chercheurs de l'Université de Tel Aviv et NVIDIA ont collaboré pour lancer un modèle de génération d'images personnalisé qui permet de créer les images que vous souhaitez.
Lien papier : https://arxiv.org/abs/2208.01618
Adresse du projet : https://textual-inversion.github.io/
Explication vidéo : https://youtu.be/f3oXa7_SYek
Courte analyse : https://www.louisbouchard.ai/imageworthoneword/
Modèle de pré-entraînement d'image linguistique pour la reconnaissance vidéo générale
L'apprentissage de modèles de textes visuels a sans aucun doute connu un grand succès, mais comment étendre cette nouvelle méthode de pré-formation linguistique en image au domaine vidéo reste une question ouverte.
Des chercheurs de Microsoft et de l'Académie chinoise des sciences ont proposé une méthode simple et efficace pour adapter directement des modèles langage-image pré-entraînés à la reconnaissance vidéo, plutôt que de pré-entraîner de nouveaux modèles à partir de zéro.
Lien papier : https://arxiv.org/abs/2208.02816
Adresse du projet : https://github.com/microsoft/VideoX/tree/master/X-CLIP
Explication vidéo : https://youtu.be/seb4lmVPEe8
Courte analyse : https://www.louisbouchard.ai/general-video-recognition/
Make-A-Video : Modèle vidéo de génération de texte en un clic
Le peintre peut peindre librement sur la toile Avec une image aussi claire et fluide, pouvez-vous penser que chaque image de la vidéo est générée par l'IA ?
Make-A-Video lancé par MetaAI peut générer des vidéos de styles différents en quelques secondes en saisissant simplement quelques mots. Il n'est pas exagéré de l'appeler la "version vidéo de DALL·E".
Lien papier : https://arxiv.org/abs/2209.14792
Explication vidéo : https://youtu.be/MWwESVyHWto
bref Analyse de l'histoire : https://www.louisbouchard.ai/make-a-video/
Whisper : Modèle de reconnaissance vocale faiblement supervisé à grande échelle
Avez-vous déjà pensé à un logiciel de traduction capable de traduire rapidement le discours dans la vidéo ? , même ces langues que vous ne comprenez pas vous-même ?
Whisper open source d’OpenAI peut faire exactement cela.
Whisper a été formé sur plus de 680 000 heures de données multilingues. Il peut reconnaître les sons multilingues dans des environnements bruyants et les convertir en texte.
Lien papier : https://arxiv.org/abs/2212.04356
Adresse du projet : https://github.com/openai/whisper
Explication vidéo : https://youtu.be/uFOkMme19Zs
Courte analyse : https://www.louisbouchard.ai/whisper/
Le texte peut générer des images, des vidéos et des modèles 3D~
DreamFusion lancé par Google peut générer des modèles 3D en un seul clic en utilisant un modèle de diffusion texte-image 2D pré-entraîné sur des milliards de paires image-texte Les modèles de diffusion entraînés sont à l'origine de percées récentes dans la synthèse de modèles texte en 3D.
Lien papier : https://arxiv.org/abs/2209.14988
Explication vidéo : https://youtu.be/epuU0VRIcjE
bref Analyse de l'histoire : https://www.louisbouchard.ai/dreamfusion/
Imagic : Une véritable méthode d'édition d'images basée sur le modèle de diffusion
En utilisant des modèles de génération d'images texte tels que DALL·E, vous pouvez obtenir l'image souhaitée image en saisissant simplement une ligne de texte Mais les images générées par l’IA ne sont parfois pas si parfaites.
Des chercheurs de Google, de l'Institut israélien de technologie et de l'Institut des sciences Weizmann ont introduit une véritable méthode d'édition d'images basée sur le modèle de diffusion - Imagic, qui peut réaliser des PS de vraies photos en utilisant uniquement du texte.
Par exemple, nous pouvons changer la pose et la composition d'une personne tout en conservant ses caractéristiques d'origine, ou je veux qu'un chien debout s'assoie et qu'un oiseau déploie ses ailes.
Lien papier : https://arxiv.org/abs/2210.09276
Adresse du projet : https://imagic-editing.github.io/
Vidéo Explication : https://youtu.be/gbpPQ5kVJhM
Analyse courte : https://www.louisbouchard.ai/imagic/
eDiffi : modèle de synthèse d'image texte de meilleure qualité
que DALL· Les modèles de synthèse d'image plus puissants de E et Stable Diffusion sont là !
Il s'agit de l'eDiffi de NVIDIA, qui peut générer des images de meilleure qualité avec plus de précision. De plus, l'ajout de modèles de pinceaux peut ajouter plus de créativité et de flexibilité à vos travaux.
Lien papier : https://arxiv.org/abs/2211.01324
Adresse du projet : https://deepimagination.cc/eDiff-I/
Explication vidéo : https://youtu.be/grwp-ht_ixo
Courte analyse : https://www.louisbouchard.ai/ediffi/
Infinite Nature : Apprendre à partir d'une seule image Infini visualiser la génération de scènes naturelles
Avez-vous déjà pensé à prendre une photo puis à voler dans l'image comme si vous ouvriez une porte ?
Des chercheurs de Google et de l'Université Cornell ont transformé cette imagination en réalité. Il s'agit d'InfiniteNature-Zero, qui peut générer des vues illimitées de scènes naturelles à partir d'une seule image.
Lien papier : https://arxiv.org/abs/2207.11148
Adresse du projet : https://infinite-nature.github.io/
Explication vidéo : https://youtu.be/FQzGhukV-l0
Analyse courte : https://www.louisbouchard.ai/infinitenature-zero
Galactica : le grand langage de la science Modèle
Galactica développé par Meta est un grand modèle de langage comparable en taille à GPT-3, mais son domaine d'expertise est la connaissance scientifique.
Le modèle peut rédiger des livres blancs gouvernementaux, des revues de presse, des pages Wikipédia et du code, il sait également citer et écrire des équations. C’est un gros problème pour l’intelligence artificielle et la science.
Lien papier : https://arxiv.org/abs/2211.09085
Explication vidéo : https://youtu.be/2GfxkCWWzLU
bref Analyse de l'histoire : https://www.louisbouchard.ai/galactica/
RAD-NeRF : Modèle de synthèse de portrait en temps réel basé sur la décomposition spatiale audio
Depuis l'émergence de DeepFake et NeRF, l'IA semble changer de visage être devenu monnaie courante. Mais il y a un problème. Les visages remplacés par l’IA révèlent parfois leurs secrets car ils ne correspondent pas à la forme de la bouche.
L'émergence de RAD-NeRF peut résoudre ce problème. Il peut effectuer une synthèse de portrait en temps réel des locuteurs apparaissant dans la vidéo et prend également en charge les avatars personnalisés.
Lien papier : https://arxiv.org/abs/2211.12368
Adresse du projet : https://me.kiui.moe/radnerf/
Vidéo Comment Le travail à succès de l'IA de l'année pourrait-il se faire sans ChatGPT ? Celui-ci est devenu populaire partout sur Internet et a été développé par des internautes pour écrire des articles pornographiques, du code et d'autres applications. Si vous ne le savez pas encore, venez vite ici. jetez un oeil!
Explication vidéo : https://youtu.be/AsFgn8vU-tQ
Courte analyse : https://www.louisbouchard.ai/chatgpt/
peut être utilisée directement le vieillissement du visage vidéo pour une utilisation en productionBien que les modèles de vision par ordinateur actuels puissent générer l'âge du visage, le transfert de style, etc., cela n'a qu'une apparence cool et n'a presque aucun effet dans les applications réelles. La technologie existante souffre généralement de perte et de discrimination des caractéristiques du visage. dans les images vidéo suivantes nécessite souvent un montage secondaire manuel.
Récemment, Disney a publié la première méthode pratique et entièrement automatisée pour régénérer les visages dans les images vidéo destinées à la production, FRAN (Face Re-Aging Network), annonçant officiellement le besoin de maquilleurs dans les films. La technologie qui change l'âge des acteurs visuellement a pris fin.
Lien papier : https://dl.acm.org/doi/pdf/10.1145/3550454.3555520
Adresse du projet : https://studios.disneyresearch.com/2022/11 /30/production-ready-face-re-aging-for-visual-effects/
Explication vidéo : https://youtu.be/WC03N0NFfwk
Courte analyse : https ://www.louisbouchard.ai/disney-re-age/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!