Janus Pro-7b de Deepseek: un puissant modèle de génération d'images open source
Les titres récents ont été dominés par les fluctuations du marché et les changements politiques, mais un développement significatif est apparu: Janus Pro-7b de Deepseek AI. Ce modèle de génération d'images de pointe d'une entreprise d'IA chinois a déjà surpassé Dall-E 3 d'OpenAI et une diffusion stable dans divers repères. Le différenciateur clé? C'est open-source! Ce billet de blog compare Janus Pro-7B de Deepseek contre Dall-E 3 sur plusieurs tâches pour déterminer quel modèle règne le suprême.
Janus Pro, développé par Deepseek AI, est un modèle sophistiqué de grande langue (LLM). S'appuyant sur son prédécesseur, le modèle Janus, il possède une architecture découplée optimisée pour la compréhension multimodale et la génération de texte à l'image. Formé sur un ensemble de données diversifié englobant les données multimodales, textuelles et esthétiques grâce à un processus en trois étapes, Janus Pro excelle à interpréter des invites complexes et détaillées. Actuellement, il est disponible en deux versions: Janus-Pro-1b et Janus-Pro-7b, offrant une évolutivité pour diverses applications.
Des tests rigoureux dans plus de 20 repères révèlent les capacités impressionnantes de Janus Pro:
Génération du texte à l'image:
Compréhension multimodale:
Le développement de Janus-PRO impliquait un processus de formation en trois étapes en utilisant une architecture découplée:
étapes de formation:
Présentation de l'architecture:
Cette comparaison opposent Janus Pro-7b de Deepseek (accessible via des câlins) contre Dall-E 3 d'Openai (consulté via Chatgpt). Analysons les résultats sur diverses tâches.
Invite: "En fonction du score de l'image, quelle équipe est la plus susceptible de gagner?"
(résultats résumés dans un tableau similaire à l'original, en comparant la précision et l'interprétation du score fourni.)
Invite: "Expliquez la trame de fond derrière cette image."
(résultats résumés dans un tableau similaire à l'original, en comparant la précision et la profondeur d'interprétation de la backstory.)
Invite: "Générez une image d'une fille aux yeux bleu profond et aux cheveux blonds, en regardant dans un miroir, une main sous son visage, l'autre à ses côtés, éclairée par une ampoule vacillante."
(Inclure des images générées par les deux modèles.)
Invite: "Expliquez ce mème."
(résultats résumés dans un tableau similaire à l'original, comparant la précision et la clarté de l'explication des mèmes.)
(un tableau résumant le gagnant de chaque tâche.)
Janus pro-7b est une contribution significative au domaine de la génération d'images open source et des LLM multimodaux. Alors que Dall-E 3 détient actuellement un avantage dans certaines applications du monde réel en raison de ses données de formation et de son intégration approfondies, la nature open source de Janus Pro-7B et ses fortes performances dans des domaines spécifiques en font un outil précieux pour les chercheurs et les développeurs. Le développement ultérieur promet d'en faire un formidable concurrent à l'avenir.
(Maintenez la section FAQ d'origine.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!