Deepseek Janus Pro 1B, lancé le 27 janvier 2025, est un modèle AI multimodal avancé conçu pour traiter et générer des images à partir d'invites textuelles. Avec sa capacité à comprendre et à créer des images basées sur du texte, cette version de 1 milliard de paramètres (1b) offre des performances efficaces pour un large éventail d'applications, y compris la génération de texte à l'image et la compréhension de l'image. De plus, il excelle à produire des légendes détaillées à partir de photos, ce qui en fait un outil polyvalent pour les tâches créatives et analytiques.
Cet article a été publié dans le cadre du Data Science Blogathon.
Deepseek Janus Pro est un modèle d'IA multimodal qui intègre le traitement du texte et de l'image, capable de comprendre et de générer des images à partir d'invites de texte. La version de 1 milliard de paramètres (1b) est conçue pour des performances efficaces sur des applications telles que la génération de texte à l'image et les tâches de compréhension de l'image.
Sous la série Janus Pro de Deepseek, les modèles principaux disponibles sont "Janus Pro 1b" et "Janus Pro 7b", qui diffèrent principalement par la taille de leur paramètre, le modèle 7B étant considérablement plus grand et offrant des performances améliorées dans les tâches de la génération visuelle du texte à l'image;
LIRE AUSSI: Comment accéder à Deepseek Janus Pro 7b?
Janus-Pro diverge des modèles multimodaux précédents en utilisant des voies spécialisées distinctes pour le codage visuel, plutôt que de compter sur un seul encodeur visuel pour la compréhension et la génération d'images.
Cette architecture découplée facilite les optimisations spécifiques aux tâches, atténuant les conflits entre l'interprétation et la synthèse créative. Les encodeurs indépendants interprètent les fonctionnalités d'entrée qui sont ensuite traitées par un transformateur autorégressif unifié. Cela permet à la compréhension multimodale et aux composants de génération de sélectionner indépendamment leurs méthodes d'encodage les plus appropriées.
Lisez également: Comment Janus Pro de Deepseek s'accompagne de Dall-E 3?
Une squelette de transformateur partagé est utilisé ForgorText et la fusion des fonctionnalités de l'image. Les méthodes d'encodage indépendantes pour convertir les entrées brutes en fonctionnalités sont traitées par un transformateur autorégressif unifié.
Dans la formation précédente de Janus, il y a eu un processus de formation en trois étapes pour le modèle. La première étape s'est concentrée sur la formation des adaptateurs et de la tête d'image. La deuxième étape a géré la pré-formation unifiée, au cours desquelles tous les composants, à l'exception de l'encodeur de compréhension et de l'encodeur de génération, ont mis à jour leurs paramètres. Le stade III a couvert le réglage fin supervisé, s'appuyant sur l'étape II en déverrouillant davantage les paramètres de l'encodeur de compréhension pendant l'entraînement.
Cela a été amélioré dans Janus Pro:
Maintenant, permet de construire un chiffon multimodal avec Deepseek Janus Pro:
Dans les étapes suivantes, nous créerons un système de chiffon multimodal pour interroger sur les images basées sur le modèle Deepseek Janus Pro 1B.
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Byaldi donne un cadre facile à utiliser pour la configuration des systèmes de chiffons multimodaux. Comme le montre le code ci-dessus, nous chargeons Colqwen2, qui est un modèle conçu pour une indexation de documents efficace en utilisant des fonctionnalités visuelles.
# Use ColQwen2 to index and store the presentation index_name = "image_index" model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"), index_name=index_name, store_collection_with_index=True, # Stores base64 images along with the vectors overwrite=True )
Nous utilisons ce PDF pour interroger et construire un système de chiffon dans les étapes suivantes. Dans le code ci-dessus, nous stockons l'image PDF avec les vecteurs.
query = "How many clients drive more than 50% revenue?" returned_page = model1.search(query, k=1)[0] import base64 # Example Base64 string (truncated for brevity) base64_string = returned_page['base64'] # Decode the Base64 string image_data = base64.b64decode(base64_string) with open('output_image.png', 'wb') as image_file: image_file.write(image_data)
La page pertinente des pages du PDF est récupérée et enregistrée sous le nom de Output_image.png basé sur la requête.
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Le code génère une réponse à partir du modèle Deepseek Janus Pro 1B à l'aide des incorporations d'entrée préparées (texte et image). Il utilise plusieurs paramètres de configuration comme le rembourrage, les jetons de démarrage / fin, la longueur des jetons maximaux et s'il faut utiliser la mise en cache et l'échantillonnage. Une fois la réponse générée, il décode les ID de jeton dans le texte lisible par l'homme en utilisant le tokenzer. La sortie décodée est stockée dans la variable de réponse.
L'ensemble du code est présent dans ce carnet de colab.
"Quels ont été les revenus en France?"
La réponse ci-dessus n'est pas exacte même si la page pertinente a été récupérée par TheColQwen2 Retriever, le modèle Deepseek Janus Pro 1B n'a pas pu générer la réponse précise de la page. La réponse exacte doit être de 2 milliards de dollars.
"" Quel a été le nombre de promotions depuis le début de l'exercice 2010? "
La réponse ci-dessus est correcte car elle correspond au texte mentionné dans le PDF.
En conclusion, le modèle Deepseek Janus Pro 1b représente une progression significative de l'IA multimodale, avec son architecture découplée qui optimise à la fois la compréhension de l'image et les tâches de génération. En utilisant des encodeurs visuels distincts pour ces tâches et en affinant sa stratégie de formation, Janus Pro offre des performances améliorées dans la génération de texte à l'image et l'analyse d'image. Cette approche innovante (chiffon multimodal avec Deepseek Janus Pro), combinée à son accessibilité open source, en fait un outil puissant pour diverses applications dans la compréhension visuelle et la création visuelles axées sur l'IA.
Le média présenté dans cet article ne appartient pas à l'analyse vidhya et est utilisé à la discrétion de l'auteur.
Ans. Deepseek Janus Pro 1B est un modèle d'IA multimodal conçu pour intégrer à la fois le traitement du texte et de l'image, capable de comprendre et de générer des images à partir des descriptions de texte. Il dispose de 1 milliard de paramètres pour des performances efficaces dans des tâches comme la génération de texte à l'image et la compréhension de l'image.
Q2. Comment fonctionne l'architecture de Janus Pro 1B?ANS. Janus Pro utilise une architecture transformatrice unifiée avec codage visuel découplé. Cela signifie qu'il utilise des voies distinctes pour la compréhension et la génération d'images, permettant une optimisation spécifique à la tâche pour chaque tâche.
Q3. Comment le processus de formation de Janus Pro diffère-t-il des versions précédentes?ANS. Janus Pro améliore les stratégies de formation précédentes en augmentant les étapes de formation, en abandonnant l'ensemble de données ImageNet en faveur de données spécialisées de texte à l'image et de se concentrer sur une meilleure réglage fin pour une efficacité et des performances améliorées.
Q4. Quel type d'applications peut bénéficier de l'utilisation de Janus Pro 1B?ANS. Janus Pro 1B est particulièrement utile pour les tâches impliquant la génération de texte à l'image, la compréhension de l'image et les applications d'IA multimodales qui nécessitent des capacités de traitement de l'image et du texte
Q5. Comment Janus-Pro se compare-t-il à d'autres modèles comme Dall-E 3?ANS. Janus-Pro-7b surpasse Dall-E 3 dans des repères tels que Geneval et DPG-Bench, selon Deepseek. Janus-PRO sépare la compréhension / la génération, l'échelle des données / modèles pour la génération d'images stable et maintient une structure unifiée, flexible et rentable. Alors que les deux modèles effectuent une génération de texte à l'image, Janus-PRO propose également le sous-titrage d'image, ce que Dall-E 3 ne le fait pas.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!