Amélioration du chiffon multimodal avec Deepseek Janus Pro-IA-php.cn

Deepseek Janus Pro 1B, lancé le 27 janvier 2025, est un modèle AI multimodal avancé conçu pour traiter et générer des images à partir d'invites textuelles. Avec sa capacité à comprendre et à créer des images basées sur du texte, cette version de 1 milliard de paramètres (1b) offre des performances efficaces pour un large éventail d'applications, y compris la génération de texte à l'image et la compréhension de l'image. De plus, il excelle à produire des légendes détaillées à partir de photos, ce qui en fait un outil polyvalent pour les tâches créatives et analytiques.

Objectifs d'apprentissage

Analyse de son architecture et des caractéristiques clés qui améliorent ses capacités.
Exploration de la conception sous-jacente et de son impact sur les performances.
Un guide étape par étape pour construire un système de génération (RAG) (RAG) de récupération.
en utilisant le modèle Deepseek Janus Pro 1 milliard pour les applications du monde réel.
Comprendre comment Deepseek Janus Pro optimise les solutions basées sur l'IA.

Cet article a été publié dans le cadre du Data Science Blogathon.

Table des matières

Objectifs d'apprentissage
Qu'est-ce que Deepseek Janus Pro?
- Aspects clés et conception des aspects de Janus Pro 1B
Détroisement architecture pour la compréhension de l'image et la génération
- Caractéristiques clés de l'architecture modèle
- Dual-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-Point Caractéristiques Architecture Modèle Compréhension et génération
- Architecture transformatrice unifiée
- Stratégie de formation optimisée
Rag multimodal avec Deepseek Janus Pro 1b Modèle
- Étape 1. Installez les bibliothèques nécessaires
- Étape 2. Modèle pour la sauvegarde de l'image Embeddings
- étape. PDF
- Étape 4. Interrogation et récupération à partir d'images enregistrées
- Étape 5. Chargez le modèle de Janus Pro
- Étape 6. Génération de sortie
Conclusions
Key Takeways
Fréquemment posées aux questions

Qu'est-ce que Deepseek Janus Pro?

Deepseek Janus Pro est un modèle d'IA multimodal qui intègre le traitement du texte et de l'image, capable de comprendre et de générer des images à partir d'invites de texte. La version de 1 milliard de paramètres (1b) est conçue pour des performances efficaces sur des applications telles que la génération de texte à l'image et les tâches de compréhension de l'image.

Sous la série Janus Pro de Deepseek, les modèles principaux disponibles sont "Janus Pro 1b" et "Janus Pro 7b", qui diffèrent principalement par la taille de leur paramètre, le modèle 7B étant considérablement plus grand et offrant des performances améliorées dans les tâches de la génération visuelle du texte à l'image;

Caractéristiques clés et aspects de conception de Janus Pro 1B

Architecture : Janus Pro utilise une architecture de transformateur unifiée mais découple le codage visuel dans des voies distinctes pour améliorer les performances dans la compréhension d'image et les tâches de création.
Capacités : Il excelle dans les tâches liées à la fois à la compréhension des images et à la génération de nouvelles basées sur des invites de texte. Il prend en charge 384 × 384 entrées d'image.
Encodeurs d'image : Pour les tâches de compréhension de l'image, Janus utilise Siglip pour coder les images. Siglip est un modèle d'intégration d'image qui utilise le framework de Clip mais remplace la fonction de perte par une perte sigmoïde par paire. Pour la génération d'images, Janus utilise un encodeur existant de Llamagen, un mode de génération d'images autorégressif. Llamagen est une famille de modèles de génération d'images qui applique le paradigme de prédiction des prochains modèles de langue à une génération visuelle
open source: Il est disponible sur GitHub sous la licence MIT, avec une utilisation du modèle régie par la licence du modèle Deepseek.

LIRE AUSSI: Comment accéder à Deepseek Janus Pro 7b?

Architecture découplée pour la compréhension et la génération d'images

Amélioration du chiffon multimodal avec Deepseek Janus Pro

Janus-Pro diverge des modèles multimodaux précédents en utilisant des voies spécialisées distinctes pour le codage visuel, plutôt que de compter sur un seul encodeur visuel pour la compréhension et la génération d'images.

Encodeur de compréhension de l'image. Cette voie extrait les fonctionnalités sémantiques d'images.
Encodeur de génération d'images. Cette voie synthétise des images basées sur les descriptions de texte.

Cette architecture découplée facilite les optimisations spécifiques aux tâches, atténuant les conflits entre l'interprétation et la synthèse créative. Les encodeurs indépendants interprètent les fonctionnalités d'entrée qui sont ensuite traitées par un transformateur autorégressif unifié. Cela permet à la compréhension multimodale et aux composants de génération de sélectionner indépendamment leurs méthodes d'encodage les plus appropriées.

Lisez également: Comment Janus Pro de Deepseek s'accompagne de Dall-E 3?

Caractéristiques clés de l'architecture du modèle

1. Architecture à double chemin pour la compréhension visuelle et la génération

Visual Comprendre la voie: Pour les tâches de compréhension multimodales, Janus Pro utilise Siglip-L comme encodeur visuel, qui prend en charge les entrées d'image d'une résolution jusqu'à 384 × 384. Ce support haute résolution permet au modèle de capturer plus de détails d'image, améliorant ainsi la précision de la compréhension visuelle.
Visual Generation Pathway : Pour les tâches de génération d'images, Janus Pro utilise le tokagen Llamagen avec un taux d'échantillonnage de 16 pour générer des images plus détaillées.

Amélioration du chiffon multimodal avec Deepseek Janus Pro

2. Architecture transformatrice unifiée

Une squelette de transformateur partagé est utilisé ForgorText et la fusion des fonctionnalités de l'image. Les méthodes d'encodage indépendantes pour convertir les entrées brutes en fonctionnalités sont traitées par un transformateur autorégressif unifié.

3. Stratégie de formation optimisée

Dans la formation précédente de Janus, il y a eu un processus de formation en trois étapes pour le modèle. La première étape s'est concentrée sur la formation des adaptateurs et de la tête d'image. La deuxième étape a géré la pré-formation unifiée, au cours desquelles tous les composants, à l'exception de l'encodeur de compréhension et de l'encodeur de génération, ont mis à jour leurs paramètres. Le stade III a couvert le réglage fin supervisé, s'appuyant sur l'étape II en déverrouillant davantage les paramètres de l'encodeur de compréhension pendant l'entraînement.

Cela a été amélioré dans Janus Pro:

en augmentant les étapes d'entraînement au stade I, permettant une formation suffisante sur l'ensemble de données ImageNet.
De plus, au stade II, pour la formation de génération de texte à l'image, les données ImageNet ont été complètement abandonnées. Au lieu de cela, des données de texte à image normales ont été utilisées pour former le modèle à générer des images basées sur des descriptions denses. Cela s'est avéré améliorer l'efficacité de la formation et les performances globales.

Maintenant, permet de construire un chiffon multimodal avec Deepseek Janus Pro:

Rag multimodal avec Deepseek Janus Pro 1B Modèle

Dans les étapes suivantes, nous créerons un système de chiffon multimodal pour interroger sur les images basées sur le modèle Deepseek Janus Pro 1B.

Étape 1. Installez les bibliothèques nécessaires

!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus

Copier après la connexion

Étape 2. Modèle pour enregistrer les incorporations d'images

import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

Copier après la connexion

Byaldi donne un cadre facile à utiliser pour la configuration des systèmes de chiffons multimodaux. Comme le montre le code ci-dessus, nous chargeons Colqwen2, qui est un modèle conçu pour une indexation de documents efficace en utilisant des fonctionnalités visuelles.

Étape 3. Chargement de l'image PDF

# Use ColQwen2 to index and store the presentation
index_name = "image_index"
model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"),
    index_name=index_name,
    store_collection_with_index=True, # Stores base64 images along with the vectors
    overwrite=True
)

Copier après la connexion

Nous utilisons ce PDF pour interroger et construire un système de chiffon dans les étapes suivantes. Dans le code ci-dessus, nous stockons l'image PDF avec les vecteurs.

Étape 4. Interrogation et récupération des images enregistrées

query = "How many clients drive more than 50% revenue?"
returned_page = model1.search(query, k=1)[0]
import base64
# Example Base64 string (truncated for brevity)
base64_string = returned_page['base64']

# Decode the Base64 string
image_data = base64.b64decode(base64_string)
with open('output_image.png', 'wb') as image_file:
    image_file.write(image_data)

Copier après la connexion

La page pertinente des pages du PDF est récupérée et enregistrée sous le nom de Output_image.png basé sur la requête.

Étape 5. Chargez le modèle Janus Pro

!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus

Copier après la connexion

vlchatprocessor.from_pretrated ("Deepseek-ai / janus-pro-1b") charge un processeur pré-entraîné pour gérer les entrées multimodales (images et texte). Ce processeur traitera et préparera les données d'entrée (comme le texte et les images) pour le modèle.
Le tokenzer est extrait du VlChatProcessor. Il tokenisera l'entrée de texte, convertissant le texte en un format adapté au modèle.
AutomodelforcUsallm.from_pretrainen ("Deepseek-ai / janus-pro-1b") charge le modèle Janus pro pré-formé, spécifiquement pour la modélisation du langage causal.
De plus, un format de conversation multimodal est configuré lorsque l'utilisateur entre à la fois le texte et une image.
le load_pil_images (conversation) est une fonction qui charge probablement les images répertoriées dans l'objet de conversation et les convertit en format d'image PIL, qui est couramment utilisé pour le traitement d'image dans Python.
Le processeur Voici une instance d'un processeur multimodal (le VLCHATPROCESSEUR du modèle Deepseek Janus Pro), qui prend à la fois les données de texte et d'image en entrée.
prépare_inputs_embeds (entrées) est une méthode qui prend les entrées traitées (les entrées contiennent à la fois le texte et l'image), et prépare les intérêts requis pour que le modèle génére une réponse.

Étape 6. Génération de sortie

import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

Copier après la connexion

Le code génère une réponse à partir du modèle Deepseek Janus Pro 1B à l'aide des incorporations d'entrée préparées (texte et image). Il utilise plusieurs paramètres de configuration comme le rembourrage, les jetons de démarrage / fin, la longueur des jetons maximaux et s'il faut utiliser la mise en cache et l'échantillonnage. Une fois la réponse générée, il décode les ID de jeton dans le texte lisible par l'homme en utilisant le tokenzer. La sortie décodée est stockée dans la variable de réponse.

L'ensemble du code est présent dans ce carnet de colab.

Sortie pour la requête

Amélioration du chiffon multimodal avec Deepseek Janus Pro

Sortie pour une autre requête

"Quels ont été les revenus en France?"

Amélioration du chiffon multimodal avec Deepseek Janus Pro

La réponse ci-dessus n'est pas exacte même si la page pertinente a été récupérée par TheColQwen2 Retriever, le modèle Deepseek Janus Pro 1B n'a pas pu générer la réponse précise de la page. La réponse exacte doit être de 2 milliards de dollars.

Sortie pour une autre requête

"" Quel a été le nombre de promotions depuis le début de l'exercice 2010? "

Amélioration du chiffon multimodal avec Deepseek Janus Pro

La réponse ci-dessus est correcte car elle correspond au texte mentionné dans le PDF.

Conclusions

En conclusion, le modèle Deepseek Janus Pro 1b représente une progression significative de l'IA multimodale, avec son architecture découplée qui optimise à la fois la compréhension de l'image et les tâches de génération. En utilisant des encodeurs visuels distincts pour ces tâches et en affinant sa stratégie de formation, Janus Pro offre des performances améliorées dans la génération de texte à l'image et l'analyse d'image. Cette approche innovante (chiffon multimodal avec Deepseek Janus Pro), combinée à son accessibilité open source, en fait un outil puissant pour diverses applications dans la compréhension visuelle et la création visuelles axées sur l'IA.

Les plats clés

AI multimodal avec des voies doubles : Janus pro 1b intègre le traitement du texte et de l'image, en utilisant des encodeurs séparés pour la compréhension de l'image (Siglip) et la génération d'images (Llamagen), améliorant les performances spécifiques à la tâche.
Architecture découplée: Le modèle sépare le codage visuel en voies distinctes, permettant une optimisation indépendante pour la compréhension et la génération de l'image, minimisant ainsi les conflits dans les tâches de traitement.
Backbone du transformateur unifié : Une architecture de transformateur partagée fusionne les caractéristiques du texte et des images, rationalisant la fusion de données multimodales pour des performances d'IA plus efficaces.
Amélioration de la stratégie de formation: L'approche de formation optimisée de Janus Pro comprend des étapes accrues du stade I et l'utilisation de données spécialisées de texte à l'image au stade II, augmentant considérablement l'efficacité de la formation et la qualité de sortie.
Accessibilité open source: Janus Pro 1B est disponible sur GitHub sous la licence MIT, encourageant une utilisation et une adaptation généralisées dans diverses applications axées sur l'IA.

Le média présenté dans cet article ne appartient pas à l'analyse vidhya et est utilisé à la discrétion de l'auteur.

Les questions fréquemment posées

Q1. Qu'est-ce que Deepseek Janus Pro 1B?

Ans. Deepseek Janus Pro 1B est un modèle d'IA multimodal conçu pour intégrer à la fois le traitement du texte et de l'image, capable de comprendre et de générer des images à partir des descriptions de texte. Il dispose de 1 milliard de paramètres pour des performances efficaces dans des tâches comme la génération de texte à l'image et la compréhension de l'image.

Q2. Comment fonctionne l'architecture de Janus Pro 1B?

ANS. Janus Pro utilise une architecture transformatrice unifiée avec codage visuel découplé. Cela signifie qu'il utilise des voies distinctes pour la compréhension et la génération d'images, permettant une optimisation spécifique à la tâche pour chaque tâche.

Q3. Comment le processus de formation de Janus Pro diffère-t-il des versions précédentes?

ANS. Janus Pro améliore les stratégies de formation précédentes en augmentant les étapes de formation, en abandonnant l'ensemble de données ImageNet en faveur de données spécialisées de texte à l'image et de se concentrer sur une meilleure réglage fin pour une efficacité et des performances améliorées.

Q4. Quel type d'applications peut bénéficier de l'utilisation de Janus Pro 1B?

ANS. Janus Pro 1B est particulièrement utile pour les tâches impliquant la génération de texte à l'image, la compréhension de l'image et les applications d'IA multimodales qui nécessitent des capacités de traitement de l'image et du texte

Q5. Comment Janus-Pro se compare-t-il à d'autres modèles comme Dall-E 3?

ANS. Janus-Pro-7b surpasse Dall-E 3 dans des repères tels que Geneval et DPG-Bench, selon Deepseek. Janus-PRO sépare la compréhension / la génération, l'échelle des données / modèles pour la génération d'images stable et maintient une structure unifiée, flexible et rentable. Alors que les deux modèles effectuent une génération de texte à l'image, Janus-PRO propose également le sous-titrage d'image, ce que Dall-E 3 ne le fait pas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!