Publication du rapport technique de Stable Diffusion 3 : révélant les mêmes détails d'architecture de Sora-IA-php.cn

Table des matières

DiT affiné pour améliorer les capacités de rendu de texte

Technologie de flux repondérée pour améliorer continuellement les performances

La capacité du modèle peut être encore améliorée

Internautes : L'engagement open source a été rempli comme prévu, merci

Maison

Périphériques technologiques

Publication du rapport technique de Stable Diffusion 3 : révélant les mêmes détails d'architecture de Sora

王林

Mar 07, 2024 pm 12:01 PM

sd3 mmdit Modèle de diagramme de Vincent

Très bientôt, le rapport technique de Stable Diffusion 3, le « nouveau roi du graphisme vincentien », est là.

Le texte intégral compte 28 pages au total et est plein de sincérité.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

"Old Rules", les affiches promotionnelles (⬇️) sont directement générées avec les modèles, et montrent leurs capacités de rendu de texte :

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Donc, SD3 a un texte et des commandes plus forts que DALL·E 3 et Midjourney v6 Comment la compétence suivante s’allume-t-elle ?

Le rapport technique révèle :

Tout repose sur l'architecture Transformer de diffusion multimodale MMDiT.

Obtenir de plus grandes améliorations de performances que les versions précédentes en appliquant différents ensembles de pondérations respectivement aux représentations d'images et de texte, ce qui est la clé du succès.

Pour la géométrie spécifique, ouvrons le rapport et voyons.

DiT affiné pour améliorer les capacités de rendu de texte

Au début de la sortie de SD3, le responsable a révélé que son architecture a la même origine que Sora et est un Transformer-DiT de diffusion.

Maintenant, la réponse est révélée :

Étant donné que le modèle de diagramme de Vincent doit prendre en compte à la fois les modes texte et image, Stability AI va encore plus loin que DiT et propose une nouvelle architecture MMDiT.

Le « MM » fait ici référence à « multimodal ».

Comme les versions précédentes de Stable Diffusion, le responsable utilise deux modèles pré-entraînés pour obtenir des représentations de texte et d'images appropriées.

L'encodage de la représentation textuelle se fait à l'aide de trois embedders de texte différents (embedders), dont deux modèles CLIP et un modèle T5.

L'encodage du jeton d'image est complété à l'aide d'un modèle d'encodeur automatique amélioré.

Étant donné que l'intégration de texte et d'image n'est pas conceptuellement la même chose, SD3 utilise deux ensembles de poids indépendants pour ces deux modes.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

(Certains internautes se sont plaints : ce schéma d'architecture semble lancer le "Human Completion Project", oui, certaines personnes ont simplement "vu les informations sur "Neon Genesis Evangelion" et ont cliqué sur ce rapport")

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Pour revenir au sujet, comme le montre la figure ci-dessus, cela équivaut à avoir deux transformateurs indépendants pour chaque modalité, mais leurs séquences seront connectées pour les opérations d'attention.

De cette façon, les deux représentations peuvent fonctionner dans leur propre espace tout en tenant compte de l'autre.

En fin de compte, grâce à cette méthode, les informations peuvent « circuler » entre les images et les jetons de texte, améliorant ainsi la compréhension globale du modèle et les capacités de rendu du texte lors de la sortie.

Et comme le montre l'effet précédent, cette architecture peut également être facilement étendue à plusieurs modes comme la vidéo.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Des tests spécifiques montrent que MMDiT est basé sur DiT mais est meilleur que DiT :

Sa fidélité visuelle et l'alignement du texte pendant le processus de formation sont meilleurs que les backbones texte-image existants, tels que UViT et DiT.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Technologie de flux repondérée pour améliorer continuellement les performances

Au début de la version, en plus de l'architecture de diffusion Transformer, le responsable a également révélé que SD3 intègre la correspondance de flux.

Quel « flux » ?

Comme le révèle le titre de l'article publié aujourd'hui, SD3 utilise le « Rectified Flow » (RF).

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Il s'agit d'une nouvelle méthode de génération de modèle de diffusion de « génération en une étape extrêmement simplifiée », qui a été sélectionnée pour l'ICLR2023.

Il permet aux données et au bruit du modèle d'être connectés selon une trajectoire linéaire pendant l'entraînement, produisant un chemin d'inférence plus « droit » qui peut utiliser moins d'étapes pour l'échantillonnage.

Basé sur RF, SD3 introduit un nouvel échantillonnage de trajectoire pendant le processus d'entraînement.

Il s’efforce de donner plus de poids à la partie médiane de la trajectoire, car l’auteur suppose que ces parties effectueront des tâches de prédiction plus difficiles.

Le test de cette méthode de génération par rapport à 60 autres méthodes de trajectoire de diffusion (telles que LDM, EDM et ADM) sur plusieurs ensembles de données, métriques et configurations d'échantillonneurs a révélé que :

Alors que les méthodes RF précédentes fonctionnaient bien dans les schémas d'échantillonnage en quelques étapes, elles offraient de bonnes performances, mais leurs performances relatives diminuent à mesure que le nombre d'étapes augmente.

En revanche, la variante RF repondérée SD3 améliore continuellement les performances.

La capacité du modèle peut être encore améliorée

Le responsable a mené une étude de mise à l'échelle sur la génération de texte en image en utilisant la méthode RF repondérée et l'architecture MMDiT.

Les modèles formés vont de 15 modules avec 450 millions de paramètres à 38 modules avec 8 milliards de paramètres.

À partir de là, ils ont observé : à mesure que la taille du modèle et les étapes de formation augmentent, la perte de validation montre une tendance à la baisse douce, c'est-à-dire que le modèle s'adapte à des données plus complexes grâce à un apprentissage continu.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Pour tester si cela se traduisait par des améliorations plus significatives de la sortie du modèle, nous avons également évalué la métrique d'alignement automatique de l'image (GenEval) ainsi que le score de préférence humaine (ELO) .

Le résultat est :

Il existe une forte corrélation entre les deux. Autrement dit, la perte de vérification peut être utilisée comme un indicateur très puissant pour prédire les performances globales du modèle.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

De plus, comme la tendance à l'expansion ici ne montre aucun signe de saturation (c'est-à-dire qu'à mesure que la taille du modèle augmente, les performances s'améliorent encore et n'ont pas atteint la limite), le responsable est très optimiste :

Le les performances du SD3 à l’avenir peuvent encore continuer à s’améliorer.

Enfin, le rapport technique mentionne également la question des encodeurs de texte :

En supprimant le paramètre 4,7 milliards, encodeur de texte T5 gourmand en mémoire utilisé pour l'inférence, les besoins en mémoire du SD3 peuvent être considérablement réduits, mais en même temps, la perte de performance est faible (le taux de victoire est passé de 50 % à 46 %).

Cependant, pour des raisons de capacités de rendu de texte, la recommandation officielle est de ne pas supprimer T5, car sans lui, le taux de réussite de la représentation de texte tombera à 38 %.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Donc, pour résumer : parmi les trois encodeurs de texte du SD3, T5 apporte la plus grande contribution lors de la génération d'images avec du texte (et d'images de description de scène très détaillées).

Internautes : L'engagement open source a été rempli comme prévu, merci

Dès la publication du rapport SD3, de nombreux internautes ont déclaré :

Stability AI est très heureux que l'engagement open source ait été rempli comme prévu, et j'espère qu'ils pourront continuer à l'entretenir et à l'exploiter pendant longtemps.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Certaines personnes sont sur le point de revendiquer le nom d'OpenAI :

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Ce qui est encore plus gratifiant, c'est que quelqu'un a mentionné dans la zone de commentaire :

Tous les poids du modèle SD3 peuvent être téléchargés, et le plan actuel est de 800 millions de paramètres, 2 milliards de paramètres et 8 milliards de paramètres.

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

Comment est la vitesse ?

Ahem, le rapport technique mentionne :

8 milliards de SD3 prennent 34 secondes pour générer une image 1024*1024 sur un RTX 4090 de 24 Go (50 étapes d'échantillonnage) - mais ce n'est qu'un premier résultat de test d'inférence préliminaire non optimisé.

Texte intégral du rapport : https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf.
Lien de référence :
[1]https://stability.ai/news/stable-diffusion-3-research-paper.
[2]https://news.ycombinator.com/item?id=39599958.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7722

Tutoriel Java

1642

Tutoriel CakePHP

1396

Tutoriel Laravel

1289

Tutoriel PHP

1233

Afficher plus

Related knowledge

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Top 7 Système de chiffon agentique pour construire des agents d'IA Mar 31, 2025 pm 04:25 PM

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Apr 02, 2025 pm 06:12 PM

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

Comment accéder à Falcon 3? - Analytique Vidhya Mar 31, 2025 pm 04:41 PM

Falcon 3: un modèle révolutionnaire de grande langue open source Falcon 3, la dernière itération de la célèbre série Falcon de LLMS, représente une progression importante de la technologie de l'IA. Développé par le Technology Innovation Institute (TII), cet ouvert

See all articles