Bientôt, la diffusion stable a été découverte dans un nouvel objectif -
La « combinaison de forme et de sens » la plus critique dans la conception d'un LOGO y est clairement comprise. J'ai vu Cat dessiner une tête de chat instantanément :
Yoga shop YOGA Les lettres sont transformées en forme humaine, et le style est tout à fait correct :
Ce n'est pas un problème de concevoir une seule des lettres, car exemple, dessinez le D pour Chien Devenez un chien :
C'est vrai, concis et expressif, n'est-ce pas !
Même face aux polices chinoises, l'IA peut très bien comprendre le sens et dessiner rapidement l'image du LOGO que le Parti A veut transmettre :
Si vous ouvrez un magasin et l'utilisez, pourquoi auriez-vous besoin de dépenser des dizaines de dollars ? Une centaine de yuans pour concevoir un LOGO ? (doge)
Bien qu'il y ait eu de nombreuses IA qui ont déjà conçu des logos, à en juger par l'effet généré cette fois, c'est vraiment un peu différent.
En fait, avant cette étude, il y avait déjà de nombreuses études sur la manière d'utiliser l'IA pour concevoir des LOGOs.
Du point de vue de l'effet, il peut être principalement divisé en trois catégories :
La première consiste à utiliser la police comme restriction de forme pour transférer le style d'image (Figure AB) ; la base pour transférer la police sur l'image (Figure D) ; La troisième consiste à associer les formes et les polices de différentes images pour générer une conception de LOGO de style « épissage d'image » en couleur ou en noir et blanc (Figure CE).
Cependant, comparé au LOGO conçu par des mains humaines ci-dessous, l'effet de la conception de l'IA ci-dessus ne peut pas être considéré comme inesthétique, mais il semble être un peu moins intéressant :
Après un Après une enquête approfondie, les auteurs ont découvert que le logo conçu à la main par l'homme ne « prend pas le devant de la scène ».
Les concepteurs humains conserveront les caractéristiques de la police d'origine afin que les gens puissent reconnaître le mot en un coup d'œil, puis ajouteront quelques innovations, telles que le changement du J dans Jazz en instrument de musique, mais d'autres personnes pourront toujours reconnaître « JAZZ » en un clin d'œil. coup d'oeil "La forme de la police.
En général, il s'agit d'ajouter un certain sens du design tout en conservant une partie de la "saveur" de la police.
Par exemple, voici le design "FROG" généré par Stable Diffusion. FRO a toujours la forme de la police d'origine, seul G devient une petite grenouille qui saute :
Si vous utilisez Stable Diffusion 2. pour une post-production ultérieure Si elle est traitée, la fonction de coloration peut être davantage implémentée pour la rendre plus vive :
Le style du LOGO généré peut également changer avec le changement de la police de conception originale.
Par exemple, ce sont différents LOGOs de yoga générés sous 8 polices, chaque style est différent :
En revanche, d'autres modèles d'IA préfèrent conserver leurs propres styles lors de la génération des polices (manuellement Dog Head) :
Alors, comment cette IA de conception de polices magiques l'a-t-elle créée ?
Afin de conserver dans une certaine mesure le style de la police d'origine et de ne modifier que certaines lettres du mot, les auteurs ont mis au point une méthode pour "affiner" la forme des lettres ——
Il s'agit de laisser l'IA apprendre à utiliser les courbes de Bézier pour déformer légèrement les lettres dans différentes polices.
(Les amis qui ont utilisé le "stylo" dans PS devraient être familiers avec les courbes de Bézier. Utilisez-le pour contrôler la souris pour dessiner des courbes magiques)
Le nombre spécifique de points de contrôle sera transformé de manière itérative en fonction de la complexité des lettres et du style de police jusqu'à ce que les lettres conçues répondent aux exigences. L'orange est le point initial et le bleu est les points de contrôle suivants ajoutés :
.Points de contrôle Quelle influence la quantité a-t-elle sur l'effet de génération ?
Par exemple, c'est l'effet de l'utilisation d'un nombre différent de points de contrôle pour générer des lettres. Si le nombre est trop petit, la forme de l'image conçue ne sera pas claire, mais si le nombre est trop grand, il déformera facilement la forme originale ; de la police :
Basé sur ce noyau Pour les idées de conception, les auteurs ont combiné Stable Diffusion et CLIP pour concevoir un modèle d'IA de conception de police complet :
Parmi eux, la perte ACAP (aussi conforme que possible) La fonction est basée sur l'algorithme de triangulation de Delaunay, qui affine encore la forme de la lettre.
Par exemple, c'est la forme du PANTS (pantalon) avant et après déformation. Vous pouvez voir que l'ACAP conserve la forme de la police tout en conservant la forme du pantalon :
En même temps, afin de préserver davantage la forme. forme de police, les auteurs ont utilisé un filtre passe-bas pour garantir que les lettres ajustées ne s'écartent pas trop des lettres originales. Par exemple, voici la forme ajustée de B dans Bear :
En appliquant cet ensemble de modèles, la vitesse de génération de chaque lettre est également assez bonne.
Sur un GPU RTX 2080, il faut environ 5 minutes pour générer un logo à une seule lettre.
Bien que les articles publiés par les auteurs sur la page d'accueil du projet soient anonymes :
Cependant, sur arXiv, les noms des auteurs ont été rendus publics. Ils viennent de l'Université de Tel Aviv, Israël. , et Reichman University (Leichman University), Seaman University et Goldsmiths, Université de Londres :
Co-auteur Shir Iluz, Master ès sciences en électronique et génie électrique de l'Université de Tel Aviv. Son orientation de recherche actuelle est générative. L'IA et ses domaines d'intérêt sont l'apprentissage profond et la vision par ordinateur.
Co-auteur Yael Vinker, doctorant en vision par ordinateur à l'Université de Tel Aviv, a obtenu son diplôme de premier cycle et sa maîtrise en informatique de l'Université hébraïque d'Israël. Ses recherches actuelles portent également sur l'apprentissage profond et la vision par ordinateur. .
Il semble que les 2 millions de yuans que Lei Jun a dépensés pour concevoir le LOGO Xiaomi aient été dépensés trop tôt
Adresse papier : https://arxiv.org/abs/2303.01818
Adresse du projet : https:// wordasimage.github .io/Word-As-Image-Page/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!