


Cinq modèles majeurs d'IA générative : VAE, GAN, Diffusion, Transformers, NeRF
Choisir le bon modèle GenAI pour la tâche nécessite de comprendre la technologie utilisée par chaque modèle et ses capacités spécifiques. Veuillez en savoir plus sur les cinq modèles GenAI de VAE, GAN, diffusion, transformateurs et NerF ci-dessous.
Auparavant, la plupart des modèles d'IA se concentraient sur un meilleur traitement, analyse et interprétation des données. Jusqu'à récemment, les avancées dans les modèles de réseaux neuronaux dits génératifs ont conduit à une gamme de nouveaux outils permettant de créer toutes sortes de contenus, depuis les photos et peintures jusqu'à la poésie, le code, les scénarios et les films.
Aperçu des meilleurs modèles génératifs d'IA
Au milieu des années 2010, les chercheurs ont découvert de nouvelles perspectives pour les modèles d'IA génératifs. À cette époque, ils ont développé des auto-encodeurs variationnels (VAE), des réseaux contradictoires génératifs (GAN) et des modèles de diffusion (Diffusion). Les transformateurs, introduits en 2017, sont des réseaux de neurones révolutionnaires capables d'analyser de grands ensembles de données à grande échelle pour créer automatiquement de grands modèles de langage (LLM). En 2020, les chercheurs ont introduit la technologie Neural Radiation Field (NeRF), capable de générer du contenu 2D à partir d'images 3D.
Le développement rapide de ces modèles génératifs est un travail en cours à mesure que les chercheurs s'adaptent. les progrès ne ralentissent pas. Le professeur White a déclaré à l'Université de Californie à Berkeley : « L'architecture des modèles change constamment et de nouvelles architectures de modèles continueront à être développées.
Chaque modèle a ses capacités particulières. Actuellement, le modèle de diffusion (Diffusion) est. utilisé dans les images et les vidéos Le champ de synthèse fonctionne exceptionnellement bien, les transformateurs fonctionnent bien dans le champ de texte et les GAN sont efficaces pour augmenter les petits ensembles de données avec des échantillons synthétiques raisonnables. Mais le choix du meilleur modèle dépend toujours du cas d’utilisation spécifique.
Tous les modèles sont différents et les chercheurs en IA et les ingénieurs en ML (apprentissage automatique) doivent choisir celui qui convient au cas d'utilisation approprié et aux performances requises, en tenant compte des limitations possibles du modèle en termes de calcul, de mémoire et de limite de capital. .
Les modèles de conversion en particulier ont contribué aux derniers progrès et à l'enthousiasme des modèles génératifs. Adnan Masood, architecte en chef de l'IA chez UST Digital Transformation Consulting, a déclaré : « Les dernières avancées en matière de modèles d'IA proviennent de la pré-formation sur de grandes quantités de données et de l'utilisation de l'apprentissage auto-supervisé pour former des modèles sans étiquettes explicites
Pour. Par exemple, la famille de modèles de convertisseurs génératifs pré-entraînés d'OpenAI est parmi les plus vastes et les plus puissantes de la catégorie. Parmi eux, le modèle GPT-3 contient 17,5 milliards de paramètres
Principales applications des meilleurs modèles d'IA générative
Masood a expliqué que les meilleurs modèles d'IA générative utilisent une variété de technologies et de méthodes différentes pour générer de toutes nouvelles données. Les principales caractéristiques et utilisations de ces modèles incluent :
- VAE utilise une architecture d'encodeur-décodeur pour générer de nouvelles données, couramment utilisées pour la génération d'images et de vidéos, telles que la génération de visages synthétiques pour la protection de la vie privée.
- GAN utilise des générateurs et des discriminateurs pour générer de nouvelles données, souvent utilisées dans le développement de jeux vidéo pour créer des personnages de jeu réalistes.
- La diffusion ajoute puis supprime le bruit pour produire des images de haute qualité avec un niveau de détail élevé, créant des images presque réalistes de scènes naturelles.
- Transformer traite efficacement les données séquentielles en parallèle pour la traduction automatique, le résumé de texte et la création d'images.
- NeRF propose une nouvelle approche de la reconstruction de scènes 3D à l'aide de représentations neuronales.
Examinons chaque méthode plus en détail ci-dessous.
VAE
VAE a été développé en 2014 pour utiliser les réseaux de neurones pour encoder les données plus efficacement
Yael Lev, responsable de l'IA chez Sisense, a déclaré que la plateforme d'analyse d'intelligence artificielle VAE a appris plus efficacement les informations express. VAE se compose de deux parties : un encodeur qui compresse les données et un décodeur qui restaure les données dans leur forme originale. Ils sont parfaits pour générer de nouvelles instances à partir d'informations plus petites, réparer des images ou des données bruitées, détecter le contenu anormal dans les données et remplir les informations manquantes
Cependant, les auto-encodeurs variationnels (VAE) ont également tendance à produire des images floues ou de mauvaise qualité, selon Masood de l'UST. Un autre problème est que l’espace latent de faible dimension utilisé pour capturer la structure des données est complexe et difficile. Ces lacunes peuvent limiter l’efficacité de la VAE dans les applications nécessitant des images de haute qualité ou une compréhension claire de l’espace latent. La prochaine itération de VAE se concentrera probablement sur l'amélioration de la qualité des données générées, l'accélération de la formation et l'exploration de son applicabilité aux données de séquence. chiffres. Les GAN opposent les réseaux de neurones qui génèrent du contenu réel aux réseaux de neurones qui détectent le faux contenu. Anand Rao, leader mondial de l'IA chez PwC, a déclaré : « Peu à peu, les deux réseaux fusionnent pour produire des images générées qui ne se distinguent pas des données d'origine.
GAN est couramment utilisé pour la génération d'images, l'édition d'images et la super-résolution. » , augmentation des données, transfert de style, génération de musique et création de deepfake. L’un des problèmes des GAN est qu’ils peuvent souffrir d’un effondrement de mode, où le générateur produit des sorties limitées et répétitives, ce qui les rend difficiles à entraîner. Masood a déclaré que la prochaine génération de GAN se concentrera sur l'amélioration de la stabilité et de la convergence du processus de formation, en étendant son applicabilité à d'autres domaines et en développant des mesures d'évaluation plus efficaces. Les GAN sont également difficiles à optimiser et à stabiliser, et il n’existe aucun contrôle clair sur les échantillons générés.
Diffusion
Le modèle de diffusion a été développé en 2015 par une équipe de chercheurs de l'Université de Stanford pour simuler et inverser l'entropie et le bruit. Les techniques de diffusion permettent de modéliser des phénomènes tels que la manière dont une substance telle que le sel se diffuse dans un liquide puis l'inverse. Ce même modèle permet également de générer un nouveau contenu à partir d'images vierges.
Les modèles de diffusion sont actuellement le premier choix pour la génération d'images, ce sont les modèles de base pour les services de génération d'images populaires, tels que Dall-E 2, Stable Diffusion, Midjourney et Imagen. Ils sont également utilisés dans des pipelines pour générer du contenu vocal, vidéo et 3D. De plus, les techniques de diffusion peuvent être utilisées pour l'imputation des données, où les données manquantes sont prédites et générées.
De nombreuses applications associent des modèles de diffusion avec LLM pour la génération texte-image ou texte-vidéo. Par exemple, Stable Diffusion 2 utilise un modèle pré-entraîné contrasté langage-image comme encodeur de texte, et ajoute également des modèles pour la profondeur et la mise à l'échelle.
Masood prédit que d'autres améliorations des modèles tels que la diffusion stable pourraient se concentrer sur l'amélioration des signaux négatifs, l'amélioration de la capacité à générer des images dans le style d'un artiste spécifique et l'amélioration des images de célébrités.
Transformers
Le modèle Transformer a été développé en 2017 par une équipe de Google Brain pour améliorer la traduction linguistique. Ces modèles sont parfaits pour traiter les informations dans différents ordres et peuvent traiter les données en parallèle, tout en exploitant également des données non étiquetées pour les adapter à de grands modèles
Contenu réécrit : ces techniques peuvent être appliquées à la synthèse de texte, aux chatbots, aux moteurs de recommandation et à la traduction linguistique. , bases de connaissances, recommandations personnalisées (via des modèles de préférences), analyse des sentiments et reconnaissance d'entités nommées pour identifier des personnes, des lieux et des objets. De plus, ils peuvent être utilisés dans la reconnaissance vocale, comme la technologie Whisper d'OpenAI, ainsi que dans des domaines tels que la détection d'objets dans des vidéos et des images, le sous-titrage d'images, la classification de texte et la génération de dialogues.
Malgré leur polyvalence,
TransformersDes limites existent. Leur formation peut être coûteuse et nécessiter de grands ensembles de données. Les modèles qui en résultent sont également assez volumineux, ce qui rend difficile l’identification des sources de biais ou des résultats inexacts. "Leur complexité rend également difficile l'explication de leur fonctionnement interne, ce qui entrave leur interprétabilité et leur transparence", a déclaré Massoud. représentation d'un champ lumineux dans un réseau de neurones, la première implémentation a été très lente, prenant plusieurs jours pour capturer la première image 3D
Cependant, en 2022, des chercheurs de NVIDIA ont découvert un moyen de générer un nouveau modèle en 30 secondes environ. Ces modèles peuvent représenter des objets 3D en unités de quelques mégaoctets avec une qualité comparable alors que d'autres technologies peuvent nécessiter des gigaoctets. Ces modèles promettent de conduire à des techniques plus efficaces pour capturer et générer des objets 3D dans le métaverse. Le directeur de recherche de Nvidia, Alexander Keller, a déclaré que les NeRF pourraient éventuellement être aussi importants pour les graphiques 3D que les appareils photo numériques le sont pour la photographie moderne. Masood a déclaré que le NeRF avait d'importantes applications dans la robotique, la cartographie urbaine, la navigation autonome et les applications de réalité virtuelle. potentiel. Cependant, NERF reste coûteux en termes de calcul et combiner plusieurs NERF dans des scènes plus grandes est un défi. Le seul cas d'utilisation viable de NeRF aujourd'hui est de convertir des images en objets ou scènes 3D. Malgré ces limitations, Masood prédit que NeRF trouvera de nouveaux rôles dans les tâches de base de traitement d'images telles que le débruitage, le flou, le suréchantillonnage, la compression et l'édition d'images. que ces modèles sont un travail en cours et que les chercheurs recherchent des moyens d'améliorer les modèles individuels et de les combiner avec d'autres modèles et techniques de traitement. Lev prédit que les modèles génératifs deviendront plus polyvalents, que les applications s'étendront au-delà des domaines traditionnels et que les utilisateurs seront en mesure de guider plus efficacement les modèles d'IA et de mieux comprendre comment ils fonctionnent.
Des travaux sont également en cours sur des modèles multimodaux qui utilisent des méthodes de récupération pour appeler des bibliothèques de modèles optimisées pour des tâches spécifiques. Il espère également que le modèle génératif pourra développer d'autres capacités, telles que la réalisation d'appels API et l'utilisation d'outils externes. Par exemple, un LLM affiné basé sur les connaissances du centre d'appels de l'entreprise fournira des réponses aux questions et effectuera des dépannages, tels que. comme la réinitialisation du modem du client ou lorsque le problème est résolu. Envoyez un e-mail.
En fait, il y aura peut-être quelque chose de plus efficace pour remplacer l'architecture de modèle populaire d'aujourd'hui à l'avenir. "Lorsque de nouvelles architectures émergent, les modèles Diffusion et Transformer risquent de ne plus être utiles", a déclaré White. Nous l'avons constaté avec l'introduction de Diffusion, car leur approche des applications en langage naturel n'était pas propice aux algorithmes de mémoire à long terme et aux neurones récurrents. (RNN)
Certaines personnes prédisent que l'écosystème de l'IA générative évoluera vers un modèle à trois niveaux. La couche de base est une série de modèles de base basés sur du texte, des images, de la parole et du code. Ces modèles ingèrent de grandes quantités de données et sont construits sur de vastes modèles d'apprentissage en profondeur, combinés au jugement humain. Ensuite, des modèles de domaine spécifiques à l'industrie et à la fonction amélioreront le traitement des données de santé, juridiques ou autres. Au plus haut niveau, les entreprises construiront des modèles propriétaires en utilisant des données exclusives et une expertise en la matière. Ces trois couches vont perturber la façon dont les équipes développent des modèles et inaugurer une nouvelle ère de modèles en tant que service
Comment choisir un modèle d'IA générative : principales considérationsEntre les modèles, selon Lev de Sisense Les principales considérations lors du choix incluent le suivant :
Le problème que vous souhaitez résoudre.
Choisissez un modèle connu pour être adapté à votre tâche spécifique. Par exemple, utilisez des transformateurs pour les tâches de langage et NeRF pour les scènes 3D.Quantité et qualité des données. La diffusion nécessite beaucoup de bonnes données pour fonctionner correctement, alors que la VAE fonctionne mieux avec moins de données.
Qualité des résultats. GAN est meilleur pour des images claires et détaillées, tandis que VAE est meilleur pour des résultats plus fluides.
Comme il est facile de former le modèle. Le GAN peut être difficile à entraîner, tandis que la VAE et la Diffusion sont plus faciles.
Besoins en ressources informatiques. NeRF et Diffusion nécessitent tous deux beaucoup de puissance informatique pour fonctionner correctement.
nécessite du contrôle et de la compréhension. Si vous souhaitez plus de contrôle sur les résultats ou une meilleure compréhension du fonctionnement du modèle, les VAE peuvent être meilleurs que les GAN.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Améliorez la productivité, l’efficacité et la précision des développeurs en intégrant une génération et une mémoire sémantique améliorées par la récupération dans les assistants de codage IA. Traduit de EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, auteur JanakiramMSV. Bien que les assistants de programmation d'IA de base soient naturellement utiles, ils ne parviennent souvent pas à fournir les suggestions de code les plus pertinentes et les plus correctes, car ils s'appuient sur une compréhension générale du langage logiciel et des modèles d'écriture de logiciels les plus courants. Le code généré par ces assistants de codage est adapté à la résolution des problèmes qu’ils sont chargés de résoudre, mais n’est souvent pas conforme aux normes, conventions et styles de codage des équipes individuelles. Cela aboutit souvent à des suggestions qui doivent être modifiées ou affinées pour que le code soit accepté dans l'application.

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est « réifiée » en fin de formation. À la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grâce à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Selon les informations de ce site le 1er août, SK Hynix a publié un article de blog aujourd'hui (1er août), annonçant sa participation au Global Semiconductor Memory Summit FMS2024 qui se tiendra à Santa Clara, Californie, États-Unis, du 6 au 8 août, présentant de nombreuses nouvelles technologies de produit. Introduction au Future Memory and Storage Summit (FutureMemoryandStorage), anciennement Flash Memory Summit (FlashMemorySummit) principalement destiné aux fournisseurs de NAND, dans le contexte de l'attention croissante portée à la technologie de l'intelligence artificielle, cette année a été rebaptisée Future Memory and Storage Summit (FutureMemoryandStorage) pour invitez les fournisseurs de DRAM et de stockage et bien d’autres joueurs. Nouveau produit SK hynix lancé l'année dernière
