Maison > Périphériques technologiques > IA > Deepseek & # 039; s Janus Pro 7b vs Openai's Dall-E 3: Quel est le meilleur?

Deepseek & # 039; s Janus Pro 7b vs Openai's Dall-E 3: Quel est le meilleur?

Joseph Gordon-Levitt
Libérer: 2025-03-08 09:10:14
original
781 Les gens l'ont consulté

Janus Pro-7b de Deepseek: un puissant modèle de génération d'images open source

Les titres récents ont été dominés par les fluctuations du marché et les changements politiques, mais un développement significatif est apparu: Janus Pro-7b de Deepseek AI. Ce modèle de génération d'images de pointe d'une entreprise d'IA chinois a déjà surpassé Dall-E 3 d'OpenAI et une diffusion stable dans divers repères. Le différenciateur clé? C'est open-source! Ce billet de blog compare Janus Pro-7B de Deepseek contre Dall-E 3 sur plusieurs tâches pour déterminer quel modèle règne le suprême.

Table des matières

  • Qu'est-ce que Deepseek Janus Pro?
  • Janus Pro: Benchmarks de performance
  • Janus-Pro: méthodologie de formation et architecture
  • Janus Pro 7b contre Dall-E 3: une comparaison de la tête à tête
  • Tâche 1: Prédire les résultats du jeu
  • Tâche 2: Déstaurer les histoires d'image
  • Tâche 3: Challenge de génération d'images
  • Tâche 4: Interprétation des mèmes
  • Verdict final: Janus Pro 7b contre Dall-E 3
  • Conclusion
  • Les questions fréquemment posées

Qu'est-ce que Deepseek Janus Pro?

Janus Pro, développé par Deepseek AI, est un modèle sophistiqué de grande langue (LLM). S'appuyant sur son prédécesseur, le modèle Janus, il possède une architecture découplée optimisée pour la compréhension multimodale et la génération de texte à l'image. Formé sur un ensemble de données diversifié englobant les données multimodales, textuelles et esthétiques grâce à un processus en trois étapes, Janus Pro excelle à interpréter des invites complexes et détaillées. Actuellement, il est disponible en deux versions: Janus-Pro-1b et Janus-Pro-7b, offrant une évolutivité pour diverses applications.

Janus Pro: Benchmarks de performance

Des tests rigoureux dans plus de 20 repères révèlent les capacités impressionnantes de Janus Pro:

DeepSeek's Janus Pro 7B vs OpenAI’s DALL-E 3: Which is better?

Génération du texte à l'image:

  • Geneval: a obtenu un score de 0,80, dépassant Dall-E 3 (0,67) et le milieu stable de diffusion 3 (0,74).
  • DPG-Bench: possédait un taux de précision global de 84,19%, démontrant sa compétence avec des invites complexes.

Compréhension multimodale:

  • MMMU (compréhension multimodale de la machine): a marqué 41,0%, surperformant TokenFlow-xl (38,7%).
  • MME (évaluation multimodale): a montré des améliorations marquées du raisonnement et de la compréhension contextuelle.

Janus-Pro: méthodologie de formation et architecture

Le développement de Janus-PRO impliquait un processus de formation en trois étapes en utilisant une architecture découplée:

DeepSeek's Janus Pro 7B vs OpenAI’s DALL-E 3: Which is better?

étapes de formation:

  1. Adaptateur Pretoring: Les adaptateurs d'image et les têtes ont été pré-entraînés à l'aide d'ensembles de données comme ImageNet, en se concentrant sur la modélisation des dépendances des pixels.
  2. Pré-entraînement unifié: L'intégration des données multimodales a préparé le modèle pour diverses tâches, réduisant la dépendance à l'égard des ensembles de données à usage unique.
  3. Fonction de finition supervisée: Le modèle a été affiné en utilisant un rapport de données calibré de 5: 1: 4 (données multimodales, texte et texte à image).

Présentation de l'architecture:

  • Double codeurs: Encodeurs séparés pour la compréhension multimodale et la génération de texte à l'image minimiser les interférences et optimiser les performances spécifiques à la tâche.
  • Module de décodage centralisé: Un décodeur partagé intègre les informations des deux encodeurs pour des sorties précises.
  • Efficacité des paramètres: L'architecture évolutive (versions de paramètres 1b et 7b) s'adapte à divers besoins de calcul.

Janus Pro 7b contre Dall-E 3: une comparaison de la tête à tête

Cette comparaison opposent Janus Pro-7b de Deepseek (accessible via des câlins) contre Dall-E 3 d'Openai (consulté via Chatgpt). Analysons les résultats sur diverses tâches.

Tâche 1: Prédire les résultats du jeu

Invite: "En fonction du score de l'image, quelle équipe est la plus susceptible de gagner?"

DeepSeek's Janus Pro 7B vs OpenAI’s DALL-E 3: Which is better?

(résultats résumés dans un tableau similaire à l'original, en comparant la précision et l'interprétation du score fourni.)

Tâche 2: Déstaurer les histoires d'image

Invite: "Expliquez la trame de fond derrière cette image."

DeepSeek's Janus Pro 7B vs OpenAI’s DALL-E 3: Which is better?

(résultats résumés dans un tableau similaire à l'original, en comparant la précision et la profondeur d'interprétation de la backstory.)

Tâche 3: Challenge de génération d'images

Invite: "Générez une image d'une fille aux yeux bleu profond et aux cheveux blonds, en regardant dans un miroir, une main sous son visage, l'autre à ses côtés, éclairée par une ampoule vacillante."

(Inclure des images générées par les deux modèles.)

Tâche 4: Interprétation des mèmes

Invite: "Expliquez ce mème."

DeepSeek's Janus Pro 7B vs OpenAI’s DALL-E 3: Which is better?

(résultats résumés dans un tableau similaire à l'original, comparant la précision et la clarté de l'explication des mèmes.)

Verdict final: Janus Pro 7b contre Dall-E 3

(un tableau résumant le gagnant de chaque tâche.)

Conclusion

Janus pro-7b est une contribution significative au domaine de la génération d'images open source et des LLM multimodaux. Alors que Dall-E 3 détient actuellement un avantage dans certaines applications du monde réel en raison de ses données de formation et de son intégration approfondies, la nature open source de Janus Pro-7B et ses fortes performances dans des domaines spécifiques en font un outil précieux pour les chercheurs et les développeurs. Le développement ultérieur promet d'en faire un formidable concurrent à l'avenir.

Les questions fréquemment posées

(Maintenez la section FAQ d'origine.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal