


AltDiffusion-m18, un outil polyvalent pour générer des textes et des images multilingues
Actuellement, la sélection de modèles de génération de texte et d'images non anglais est limitée et les utilisateurs doivent souvent traduire l'invite en anglais avant de saisir le modèle. Cela entraînera non seulement une charge opérationnelle supplémentaire, mais également des erreurs linguistiques et culturelles dans le processus de traduction affecteront l'exactitude des images générées.
L'équipe FlagAI de l'Institut de recherche Zhiyuan a été pionnière d'une méthode de formation efficace, utilisant un modèle de pré-formation multilingue combiné à Stable Diffusion pour former un modèle de génération de texte et d'image multilingue - AltDiffusion-m18, qui prend en charge le texte et génération d'images en 18 langues.
Y compris le chinois, l'anglais, le japonais, le thaï, le coréen, l'hindi, l'ukrainien, l'arabe, le turc, le vietnamien, le polonais, le néerlandais, le portugais, l'italien, l'espagnol, l'allemand, le français et le russe.
Huggingface : https://huggingface.co/BAAI/AltDiffusion-m18
GitHub : https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion-m18
AltDiffusion-m18 dans L'évaluation objective des scores FID, IS et CLIP en anglais a atteint un effet de diffusion stable de 95 à 99 %, atteignant le niveau optimal en chinois et en japonais. En même temps, elle a comblé les lacunes des modèles de génération de texte et d'images. les 15 langues restantes, ce qui satisfait grandement aux besoins des utilisateurs. Il existe une forte demande dans l'industrie pour la génération de textes et de graphiques multilingues. Des remerciements particuliers vont à l’équipe de recherche sur la diffusion stable pour avoir fourni des conseils sur ce travail.
De plus, le rapport technologique innovant lié à AltDiffusion-m18 « AltCLIP : Altering the Language Encoder in CLIP for Extended Language Capabilities » a été accepté par les conclusions de l'ACL 2023.
Points forts techniques
1 Nouvel AltCLIP, construction efficace et peu coûteuse de modèles T2I multilingues
Dans AltDiffusion-m9 sorti l'année dernière, l'équipe Zhiyuan a remplacé de manière innovante la tour de langage basée sur Stable Diffusion v1. 4 AltCLIP pour la tour multilingue et affiné avec des données multilingues en neuf langues, étendant la diffusion stable originale uniquement en anglais pour prendre en charge neuf langues différentes.
AltCLIP : https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18
Et AltDiffusion-m18 est formé sur la base de Stable Diffusion v2.1. La nouvelle tour de langage de Stable Diffusion v2.1 est la deuxième couche inversée d'OpenCLIP. Par conséquent, le nouvel AltCLIP utilise la deuxième couche inversée d'OpenCLIP comme cible de distillation pour se recycler, et sur la base de m9, il n'utilisera que la couche CrossAttention K. et V dans Unet Le réglage fin est étendu à une méthode de formation en deux étapes, comme le montre la figure ci-dessous :
- Phase 1 : plus tôt au cours de l'expérience de m9, il a été découvert que le réglage fin des matrices Unet. Les matrices K et V apprennent principalement l'alignement des concepts du texte et des images. Par conséquent, la première étape de la formation m18 continue d'utiliser les données de 18 langues pour affiner les matrices K et V. De plus, des expériences ont prouvé que réduire la résolution d'une image de 512*512 à 256*256 ne fait pas perdre les informations sémantiques de l'image. Par conséquent, dans la première étape de l'apprentissage de l'alignement des concepts texte-image, la résolution de 256*256 est utilisée pour la formation, ce qui accélère la formation.
- La deuxième étape : Afin d'améliorer encore la qualité des images générées, utilisez la résolution de 512*512 pour entraîner tous les paramètres d'Unet dans les données de 18 langues. De plus, 10 % du texte est supprimé pour une formation inconditionnelle afin de servir à l'inférence de guidage sans classificateur.
- De plus, une technique de formation guidée sans classificateur est adoptée pour améliorer encore la qualité de la génération.
Les derniers résultats d'évaluation montrent qu'AltCLIP-m18 surpasse CLIP et atteint le niveau optimal dans les tâches de récupération zéro-shot (échantillon zéro) en chinois et en anglais ⬇️
Sur les benchmarks de classification d'images multilingues, AltCLIP-m9 (premier version, prend en charge 9 langues) atteint le niveau optimal avec AltCLIP-m18 ⬇️
De même, grâce à l'idée innovante de changement de tour d'AltCLIP, AltDiffusion-m18 peut également accéder de manière transparente à Stable Diffusion, tous construits sur les modèles CLIP originaux et les outils écologiques , tous les outils prenant en charge Stable Diffusion tels que Stable Diffusion WebUI, DreamBooth, etc. peuvent être appliqués à AltDiffusion-m18. Une prise en main indolore et une grande jouabilité !
2 Les effets de génération multilingues sont alignés, avec des performances supérieures et des détails précis
Avec la bénédiction du nouveau AltCLIP, AltDiffusion-m18 a atteint 95 ~ 99 % de l'effet de diffusion stable d'origine en anglais FID, IS, évaluation du score CLIP et a obtenu les performances les plus avancées dans 17 langues, dont le chinois et le japonais, les données détaillées sont présentées dans le tableau suivant :
En anglais, chinois et japonais, AltDiffusion-m18 a des résultats supérieurs et des détails plus précis que les autres résultats de génération de modèles :
Image ci-dessus (a) chinois AltDiffusion-m18 peut générer des résultats très cohérents avec la diffusion stable originale et est supérieur aux autres modèles nationaux bilingues chinois-anglais en termes de compréhension rapide, tels que : "Un ours en peluche", "Une photo en noir et blanc", "un chat ", etc. Les concepts qui ne parviennent pas à être générés dans d'autres modèles bilingues chinois-anglais nationaux peuvent être générés avec succès dans AltDiffusion. Le même phénomène se produit en chinois et en japonais.
Le "canapé noir, parquet" en (b) ci-dessus n'est correctement généré que par AltDiffusion-m18.
"ours" dans (c) ci-dessus, Japanese Stable Diffusion génère incorrectement "humain", mais AltDiffusion-m18 peut générer correctement "ours".
De plus, l'équipe Zhiyuan FlagEval a développé l'outil d'évaluation de modèles de génération de texte et d'images ImageEval. Après évaluation, la précision d'AltDiffusion-m18 dans les dimensions de l'objet d'entité et de la quantité d'entité dépasse celle des modèles homologues nationaux de 11 % et 10 % respectivement (Remarque : la méthode d'évaluation et les résultats d'ImageEval seront rendus publics dans un avenir proche, alors restez accordé).
3 Le sauveur des textes et des images en petites langues, fournissant un système de référence pour les modèles de génération de textes et d'images multilingues
AltDiffusion-m18 apprend les préjugés de différentes langues à partir de données multilingues, aidant les utilisateurs à franchir le seuil de traduction linguistique et contourner la traduction culturelle. Réduit la perte d’informations culturelles derrière la langue. Comme le montre la figure ci-dessous, le contour du visage du petit garçon généré par les invites chinoises et japonaises est davantage de « style asiatique », tandis que le contour du visage du petit garçon généré par l'anglais et d'autres invites de langues européennes est davantage de « style européen et américain ».
Ce qui est plus intéressant, c'est que les détails des images générées par les invites d'animaux dans différentes languessont également différents. Comme le montre la figure ci-dessous, bien que les images générées dans différentes langues soient globalement très cohérentes, il existe des différences subtiles dans l'arrière-plan de l'image et dans les détails des traits du visage de Corgi.
En général, AltDiffusion-m18 fournit un cadre de référence de base pour les modèles de génération de texte et d'images multilingues. Les utilisateurs dont les langues maternelles incluent l'espagnol, l'allemand et le français peuvent profiter du plaisir d'AIGC sans avoir à traduire les invites dans leur esprit en anglais. Les experts en formation en IA peuvent également optimiser davantage sur la base d'AltDiffusion-m18 en combinant DreamBooth, ControlNet et LoRA, ou utiliser le réglage fin du corpus dans d'autres langages pour obtenir de meilleurs effets de génération de texte et d'images.
Dans le même temps, FlagAI (github.com/FlagAI-Open/FlagAI), un projet open source unique pour les algorithmes, modèles et outils de grands modèles, fournit également des outils et des API pour l'inférence de formation, ce qui rend la tâche facile pour tout le monde. pour télécharger et utiliser rapidement AltDiffusion-m18.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

La technologie de détection et de reconnaissance des visages est déjà une technologie relativement mature et largement utilisée. Actuellement, le langage d'application Internet le plus utilisé est JS. La mise en œuvre de la détection et de la reconnaissance faciale sur le front-end Web présente des avantages et des inconvénients par rapport à la reconnaissance faciale back-end. Les avantages incluent la réduction de l'interaction réseau et de la reconnaissance en temps réel, ce qui réduit considérablement le temps d'attente des utilisateurs et améliore l'expérience utilisateur. Les inconvénients sont les suivants : il est limité par la taille du modèle et la précision est également limitée ; Comment utiliser js pour implémenter la détection de visage sur le web ? Afin de mettre en œuvre la reconnaissance faciale sur le Web, vous devez être familier avec les langages et technologies de programmation associés, tels que JavaScript, HTML, CSS, WebRTC, etc. Dans le même temps, vous devez également maîtriser les technologies pertinentes de vision par ordinateur et d’intelligence artificielle. Il convient de noter qu'en raison de la conception du côté Web

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

Nouveau SOTA pour des capacités de compréhension de documents multimodaux ! L'équipe Alibaba mPLUG a publié le dernier travail open source mPLUG-DocOwl1.5, qui propose une série de solutions pour relever les quatre défis majeurs que sont la reconnaissance de texte d'image haute résolution, la compréhension générale de la structure des documents, le suivi des instructions et l'introduction de connaissances externes. Sans plus tarder, examinons d’abord les effets. Reconnaissance et conversion en un clic de graphiques aux structures complexes au format Markdown : Des graphiques de différents styles sont disponibles : Une reconnaissance et un positionnement de texte plus détaillés peuvent également être facilement traités : Des explications détaillées sur la compréhension du document peuvent également être données : Vous savez, « Compréhension du document " est actuellement un scénario important pour la mise en œuvre de grands modèles linguistiques. Il existe de nombreux produits sur le marché pour aider à la lecture de documents. Certains d'entre eux utilisent principalement des systèmes OCR pour la reconnaissance de texte et coopèrent avec LLM pour le traitement de texte.
