Récemment, Stability.ai, une société fondée et financée par Emad Mostaque, a annoncé la sortie publique d'œuvres artistiques créées par l'IA.
Vous pourriez penser qu’il s’agit simplement d’une autre tentative d’IA dans le domaine de l’art, mais c’est en réalité bien plus que cela. Il y a deux raisons. Premièrement, contrairement à DALL-E 2, Stable Diffusion est open source. Cela signifie que n’importe qui peut tirer parti de sa base pour créer gratuitement des applications pour des tâches spécifiques de création de texte en image. De plus, les développeurs de Midjourney ont implémenté une fonctionnalité qui permet aux utilisateurs de la combiner avec Stable Diffusion, ce qui a conduit à des résultats étonnants.
Imaginez ce qui va se passer dans les prochains mois. Deuxièmement, contrairement au DALL-E mini et au Disco Diffusion, Stable Diffusion peut créer un travail incroyablement réaliste et artistique, rien à envier aux modèles OpenAI ou Google. Certains prétendent même qu'il s'agit du nouveau SOTA parmi les « moteurs de recherche génératifs ». (Sauf indication contraire, toutes les images de cet article ont été créées à l'aide de Stable Diffusion).
Stable Diffusion incarne les meilleures caractéristiques du monde de l'art de l'IA : c'est sans doute le meilleur modèle d'art de l'IA disponible, et il est open source. C’est tout simplement inouï et cela aura un impact énorme. Ce qui est encore plus intéressant, c’est que les informations concernant ces services peuvent vous parvenir par les sources les plus inattendues. Vos parents, vos enfants, votre partenaire, vos amis ou vos collègues. Ces personnes sont souvent étrangères à ce qui se passe dans le domaine de l’intelligence artificielle et sont sur le point de découvrir les dernières tendances dans ce domaine. L’art pourrait être le moyen par lequel l’IA frappe enfin à la porte de ceux qui sont aveugles au futur. N'est-ce pas très poétique ?
Stability.ai est né pour créer « des outils d'IA ouverts qui nous permettent de réaliser notre potentiel ». Il ne s’agit pas seulement d’un modèle de recherche qui n’est jamais entre les mains de la plupart des gens, mais d’un outil doté d’applications réelles, que vous et moi pouvons utiliser et explorer.
C'est ce qui la différencie des autres entreprises technologiques, comme OpenAI, qui garde jalousement les secrets de ses meilleurs systèmes (GPT-3 et DALL-E 2), ou Google, qui n'envisage même jamais de créer le sien (PaLM , LaMDA, Imagen ou Parti) publié en version bêta privée. Cette version publique de Stability.ai va au-delà du partage des poids et du code des modèles, qui, bien que essentiel à la santé de la science et de la technologie, n'est pas quelque chose qui intéresse la plupart des gens. Et fournit également un site Web sans code et prêt à l’emploi pour ceux d’entre nous qui ne veulent pas ou ne savent pas coder.
Le site Web s'appelle DreamStudio Lite, dont l'utilisation est gratuite et peut générer jusqu'à 200 images. Comme DALL-E 2, il propose un modèle d'abonnement payant, qui vous permet d'obtenir 1 000 images pour 10 £ (OpenAI se recharge avec 15 crédits par mois, mais pour obtenir plus de crédits, vous devez acheter le pack de 115 pour 15 $). Le coût du DALL-E est de 0,03 USD/image, tandis que le coût de la diffusion stable est de 0,01 £/image. De plus, Stable Diffusion peut être utilisé à grande échelle via l'API (le coût évolue de manière linéaire, vous pouvez donc obtenir 100 000 générations pour 1 000 £). En plus de la génération d'images, Stability.ai annoncera bientôt DreamStudio Pro (audio/vidéo) et Enterprise (studio). Une autre fonctionnalité que DreamStudio pourrait bientôt implémenter est la possibilité de générer des images à partir d'autres images, au lieu de la configuration texte-image habituelle. Comme ça :
Sur le site Web, il existe également une ressource sur l'ingénierie rapide, qui peut vous être utile si vous êtes nouveau dans ce domaine. De plus, contrairement à DALL-E 2, vous pouvez contrôler les paramètres pour influencer le résultat et conserver plus d’influence sur celui-ci. Stability.ai a tout fait pour faciliter l'accès aux modèles. OpenAI a été le premier et a dû aller plus lentement pour évaluer les risques potentiels et les biais inhérents au modèle, mais ils n'ont pas eu besoin de maintenir le modèle en version bêta fermée aussi longtemps ou de construire un modèle commercial qui limitait la créativité. Midjourney et Stable Diffusion l’ont prouvé.
La technologie Open source a ses propres limites. L’ouverture doit primer sur la confidentialité et un contrôle strict, mais pas avant la sécurité. Comme l'explique l'entreprise dans l'annonce, il s'agit « d'une licence qui permet une utilisation à la fois commerciale et non commerciale », en mettant l'accent sur une utilisation ouverte et responsable en aval du modèle. Il exige également que les œuvres dérivées soient soumises au moins aux mêmes restrictions basées sur les utilisateurs.
Le modèle open source est un bon modèle en soi, mais il est tout aussi important de construire des garde-fous raisonnables si nous ne voulons pas que cette technologie finisse par nuire aux gens ou ajouter plus d'arrogance à Internet sous forme de désinformation. « Étant donné que ces modèles sont formés sur un large éventail de paires image-texte récupérées sur Internet, ils peuvent reproduire certains préjugés sociaux et produire du contenu dangereux. Des stratégies d'atténuation ouvertes et un débat public sur ces préjugés peuvent donc permettre à chacun de faire partie de cette conversation. . Dans tous les cas, ouverture + sécurité > confidentialité et contrôle.
Avec une base solide de valeurs éthiques et d'ouverture, Stable Diffusion promet de surpasser ses concurrents en termes d'impact dans le monde réel.
Pour ceux qui souhaitent le télécharger et l'exécuter sur leur PC, sachez qu'il nécessite 6,9 Go de VRAM - cela convient aux GPU grand public haut de gamme, ce qui le rend plus léger que le DALL-E 2, mais Encore hors de portée pour la plupart des utilisateurs. Le reste d’entre vous, comme moi, pouvez commencer à utiliser Dream Studio immédiatement.
La diffusion stable est largement considérée comme le meilleur modèle artistique d'IA actuellement disponible et deviendra la base d'innombrables applications, réseaux et services, redéfinissant la façon dont nous créons et interagissons avec l'art. Mais désormais, des applications spécialement conçues pour différents cas d’utilisation seront créées dès le départ pour que tout le monde puisse les utiliser. Les gens améliorent les dessins d'enfants, réalisent des collages avec dessin extérieur + dessin intérieur, conçoivent des couvertures de magazines, dessinent des bandes dessinées, créent des vidéos transformées et animées, génèrent des images à partir d'images, et bien plus encore. Certaines de ces applications sont déjà possibles dans DALL-E et Midjourney, mais Stable Diffusion peut pousser la révolution créative actuelle vers l'étape suivante. Selon les mots d'Andrej Karpathy, ancien directeur de l'IA de Tesla et disciple de Li Feifei, "la création artistique est entrée dans une nouvelle ère de coopération entre l'humain et l'IA". compris avec le nouveau cadre de pensée de la nouvelle réalité dans laquelle nous vivons. Nous ne pouvons pas simplement établir des analogies ou des parallèles avec d’autres époques et espérer pouvoir expliquer ou prédire avec précision l’avenir. Certaines choses seront similaires, d’autres non. Nous devons considérer cet avenir à venir comme un territoire inexploré.
Écrit à la fin
Il ne fait aucun doute que la sortie publique de Stable Diffusion est l'événement le plus important et le plus influent jamais réalisé dans le domaine des modèles artistiques d'intelligence artificielle, et ce n'est que le début.
Emad Mostaque, l'un des auteurs, a déclaré sur Twitter : "Attendez-vous à ce que la qualité continue d'augmenter à mesure que nous publions des modèles plus rapides, meilleurs et plus spécifiques. Pas seulement des images, l'audio le mois prochain, puis passons à la 3D, aux vidéos. Langues, code et plus de formations .Nous sommes à l'aube d'une révolution pluriannuelle dans la façon dont nous interagissons, connectons et comprenons l'art et la créativité en général. Et pas seulement dans le domaine philosophique et intellectuel, mais comme quelque chose que tout le monde partage et expérimente désormais. Le monde créatif changera à jamais et nous devons avoir des conversations ouvertes et respectueuses pour créer un avenir meilleur pour tous. Ce n’est que lorsque la technologie open source est utilisée de manière responsable que nous pourrons créer le changement que nous souhaitons voir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!