Deepseek Janus Pro 1B, der am 27. Januar 2025 eingeführt wurde, ist ein fortschrittliches multimodales KI -Modell, das zur Verarbeitung und Generierung von Bildern aus textlichen Eingabeaufforderungen erstellt wurde. Mit seiner Fähigkeit, Bilder basierend auf Text zu verstehen und zu erstellen, liefert diese 1-Milliarden-Parameterversion (1B) eine effiziente Leistung für eine Vielzahl von Anwendungen, einschließlich der Erzeugung und des Bildverständnisses von Text zu Image. Darüber hinaus zeichnet es sich um detaillierte Bildunterschriften aus Fotos und macht es zu einem vielseitigen Werkzeug für kreative und analytische Aufgaben.
Dieser Artikel wurde als Teil des Data Science -Blogathon veröffentlicht.
auch lesen: Wie kann man Deepseek Janus Pro 7b zugreifen?
Janus-pro weicht von früheren multimodalen Modellen ab, indem sie separate, spezialisierte Wege für die visuelle Codierung verwenden, anstatt sich auf einen einzelnen visuellen Encoder für das Bildverständnis und die Erzeugung zu verlassen.
Diese entkoppelte Architektur erleichtert aufgabenspezifische Optimierungen und mildern Konflikte zwischen Interpretation und kreativer Synthese. Die unabhängigen Encoder interpretieren Eingabefunktionen, die dann von einem einheitlichen autoregressiven Transformator verarbeitet werden. Dies ermöglicht es sowohl multimodaler Verständnis als auch Generationskomponenten, unabhängig ihre am besten geeigneten Codierungsmethoden auszuwählen.
Lesen Sie auch: Wie Deepseeks Janus Pro stapelt sich gegen Dall-e 3?
Ein gemeinsames Transformator -Rückgrat wird verwendet und Bildfunktionsfusion. Die unabhängigen Codierungsmethoden zum Umwandeln der Roheingaben in Funktionen werden von einem einheitlichen autoregressiven Transformator verarbeitet.
Im früheren Janus-Training gab es einen dreistufigen Trainingsprozess für das Modell. Die erste Stufe konzentrierte sich auf das Training der Adapter und des Bildkopfes. In der zweiten Stufe wurde mit einheitlichen Vorbereitungen umgegangen, in denen alle Komponenten mit Ausnahme des Verständniscodierers und des Generationscodierers ihre Parameter aktualisiert haben. Stufe III überdachte Überwachung der Feinabstimmung und aufgebaut auf Stufe II, indem die Parameter des Verständnis-Encoders während des Trainings weiter entschlossen.
Dies wurde in Janus Pro verbessert:
Lassen Sie uns nun multimodaler Lappen mit Deepseek Janus Pro bauen:
In den folgenden Schritten werden wir ein multimodales Lappensystem erstellen, um Bilder basierend auf dem Deepseek Janus Pro 1B -Modell abzufragen.
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
byaldi bietet ein benutzerfreundliches Framework für die Einrichtung multimodaler Lappensysteme. Wie aus dem obigen Code erdenkt, laden wir ColqWen2, ein Modell, das für die effiziente Dokumentenindizierung mithilfe visueller Funktionen ausgelegt ist.
# Use ColQwen2 to index and store the presentation index_name = "image_index" model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"), index_name=index_name, store_collection_with_index=True, # Stores base64 images along with the vectors overwrite=True )
Wir verwenden dieses PDF, um in den nächsten Schritten ein Lappensystem abzufragen und zu erstellen. Im obigen Code speichern wir das Bild PDF zusammen mit den Vektoren.
query = "How many clients drive more than 50% revenue?" returned_page = model1.search(query, k=1)[0] import base64 # Example Base64 string (truncated for brevity) base64_string = returned_page['base64'] # Decode the Base64 string image_data = base64.b64decode(base64_string) with open('output_image.png', 'wb') as image_file: image_file.write(image_data)
Die relevante Seite von den Seiten des PDF wird abgerufen und als output_image.png auf der Grundlage der Abfrage gespeichert.
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Der Code generiert eine Antwort aus dem Deepseek Janus Pro 1B -Modell unter Verwendung der vorbereiteten Eingabempfetten (Text und Bild). Es verwendet mehrere Konfigurationseinstellungen wie Polsterung, Start-/End -Token, maximale Token -Länge und ob Caching und Probenahme. Nachdem die Antwort generiert wurde, dekodiert sie die Token-IDs mit dem Tokenizer wieder in den menschlichen Lesbarungstext. Die dekodierte Ausgabe ist in der Antwortvariablen gespeichert.
Ausgabe für die Abfrage
Ausgabe für eine andere Abfrage
„Was war die Einnahmen in Frankreich?“
Ausgabe für eine andere Abfrage
"” Was war die Anzahl der Werbeaktionen seit Beginn des Geschäftsjahres? “
Die obige Antwort ist korrekt, da sie mit dem im PDF genannten Text übereinstimmt.
Abschließend stellt das Deepseek Janus Pro 1B -Modell einen signifikanten Fortschritt in der multimodalen KI mit seiner entkoppelten Architektur dar, die sowohl das Bildverständnis als auch die Erzeugungsaufgaben optimiert. Janus Pro bietet durch die Verwendung separater visueller Encoder für diese Aufgaben und die Verfeinerung seiner Trainingsstrategie eine verbesserte Leistung bei der Erzeugung und Bildanalyse von Text zu Image. Dieser innovative Ansatz (multimodaler Rag mit Deepseek Janus Pro), kombiniert mit seiner Open-Source-Zugänglichkeit, macht es zu einem leistungsstarken Werkzeug für verschiedene Anwendungen im visuellen Verständnis und der Erstellung von KI-gesteuertem.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und wird nach Ermessen des Autors verwendet.
Ans. Deepseek Janus Pro 1B ist ein multimodales KI -Modell, mit dem sowohl Text- Es verfügt über 1 Milliarde Parameter für eine effiziente Leistung bei Aufgaben wie Text-zu-Image-Erzeugung und Bildverständnis.
Q2. Wie funktioniert die Architektur von Janus Pro 1b?Ans. Janus Pro verwendet eine einheitliche Transformatorarchitektur mit entkoppelter visueller Codierung. Dies bedeutet, dass es separate Pfade für das Verständnis und die Erzeugung von Bildern verwendet und die aufgabenspezifische Optimierung für jede Aufgabe ermöglicht.
Q3. Wie unterscheidet sich der Trainingsprozess von Janus Pro von früheren Versionen?Ans. Janus Pro verbessert frühere Trainingsstrategien, indem sie die Schulungsschritte erhöhen, den ImageNet-Datensatz zugunsten spezialisierter Text-zu-Im-Im---Daten fallen und sich auf eine bessere Feinabstimmung für verbesserte Effizienz und Leistung konzentriert.
Q4. Welche Art von Anwendungen kann von der Verwendung von Janus Pro 1B profitieren?Ans. Janus Pro 1b ist besonders nützlich für Aufgaben, die Text-zu-Image-Generierung, Bildverständnis und multimodale AI-Anwendungen umfassen, für die sowohl Bild- als auch Textverarbeitungsfunktionen
Q5 erforderlich sind. Wie vergleicht sich Janus-Pro mit anderen Modellen wie Dall-e 3?Ans. Janus-Pro-7b übertrifft laut Deepseek Dall-e 3 in Benchmarks wie Geneval und DPG-Bench. Janus-Pro trennt das Verständnis/die Erzeugung, skaliert Daten/Modelle für die stabile Bildgenerierung und hält eine einheitliche, flexible und kostengünstige Struktur. Während beide Modelle die Erzeugung von Text-zu-Image-Erzeugung durchführen, bietet Janus-Pro auch Bildunterschriften, die Dall-e 3 nicht.
nicht.
Das obige ist der detaillierte Inhalt vonVerbesserung des multimodalen Lappen mit Deepseek Janus Pro. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!