Deepseek, ein chinesischer KI -Innovator, hat die globale KI -Landschaft erheblich beeinflusst, was zu einem Rückgang der US -Aktienmarktbewertungen in Höhe von 1 Billion US -Dollar und beunruhigende Tech -Giganten wie Nvidia und OpenAI führte. Der rasche Anstieg der Bekanntheit beruht auf den Modellen für die Generierung, das Denken, die Sicht und die Bildgenerierung von Bildungen. Ein aktuelles Highlight ist die Einführung seiner modernen Janus-Serie von multimodalen Modellen. In diesem Tutorial wird ein lokaler Docker -Container eingerichtet, um das Janus -Modell auszuführen und seine Funktionen zu untersuchen.
Bild von Autor
Dieser Leitfaden deckt ein Janus -Projekt ein, erstellt einen Docker -Container für die lokale Ausführung und das Testen seiner Bild- und Textverarbeitungsfunktionen. Eine weitere Erforschung von Deepseeks disruptiven Modellen ist über diese Ressourcen verfügbar:
Die Deepseek Janus -Serie repräsentiert eine neue Generation multimodaler Modelle, mit denen das visuelle Verständnis und die Erzeugung mithilfe erweiterter Frameworks nahtlos integriert werden soll. Die Serie umfasst Janus, Janusflow und die Hochleistungs-Janus-Pro, wobei jede Iteration die Effizienz, Leistung und multimodale Funktionalität verbessert.
2. Janusflow: Richtige Flussintegration
3. Janus-pro: Optimierte Leistung
Für einen tieferen Eintauchen in die Januar-Serie, die Zugriffsmethoden und die Vergleiche mit Openais Dall-E 3 siehe Deepseeks Janus-Pro: Features, Dall-E 3 Vergleich & More.
Während Janus ein relativ neues Modell ist, ohne leicht verfügbare quantisierte Versionen oder lokale Anwendungen für den einfachen Desktop/Laptop -Gebrauch, bietet das GitHub -Repository eine Gradio -Webanwendungsdemo. Diese Demo trifft jedoch häufig auf Paketkonflikte. Dieses Projekt befasst sich mit diesem Projekt, indem der Code geändert, ein benutzerdefiniertes Docker -Bild erstellt und lokal mit Docker Desktop ausgeführt wird.
Beginnen Sie mit dem Herunterladen und Installieren der neuesten Docker -Desktop -Version von der offiziellen Docker -Website.
Windows -Benutzer: Windows -Benutzer benötigen auch das Windows -Subsystem für Linux (WSL). Installieren Sie es über Ihr Terminal mit:
<code>wsl --install</code>
klonen Sie das Janus -Repository und navigieren Sie zum Projektverzeichnis:
<code>git clone https://github.com/deepseek-ai/Janus.git cd Janus</code>
im Ordner demo
öffnen app_januspro.py
. Nehmen Sie diese Änderungen vor:
deepseek-ai/Janus-Pro-7B
durch deepseek-ai/Janus-Pro-1B
. Dies verwendet das kleinere Modell (4,1 GB), das besser für die lokale Verwendung geeignet ist.
demo.queue
Funktion: Ändern Sie die letzte Zeile in: <code>demo.queue(concurrency_count=1, max_size=10).launch( server_name="0.0.0.0", server_port=7860 )</code>
Dies stellt sicher
4. Erstellen des Docker -Bildes im Root -Verzeichnis des Projekts: Dockerfile
<code># Use the PyTorch base image FROM pytorch/pytorch:latest # Set the working directory inside the container WORKDIR /app # Copy the current directory into the container COPY . /app # Install necessary Python packages RUN pip install -e .[gradio] # Set the entrypoint for the container to launch your Gradio app CMD ["python", "demo/app_januspro.py"]</code>
erstellt haben. Betrachten Sie eine Einführung in den Docker -Kurs für grundlegende Kenntnisse. Dockerfile
<code>docker build -t janus .</code>
<code>docker run -it -p 7860:7860 -d -v huggingface:/root/.cache/huggingface -w /app --gpus all --name janus janus:latest</code>
Zugriff auf die Anwendung unter: http://localhost:7860/
. Zur Fehlerbehebung finden Sie im aktualisierten Janus -Projekt unter kingabzpro/Janus: Janus-Series
.
Die Web-App bietet eine benutzerfreundliche Oberfläche. Dieser Abschnitt zeigt das multimodale Verständnis von Janus Pro und die Erzeugung von Text-zu-Image.
zum Testen multimodaler Verständnis, laden Sie ein Bild hoch und fordern Sie eine Erläuterung an. Selbst mit dem kleineren 1B -Modell sind die Ergebnisse sehr genau.
In ähnlicher Weise zeigt das Testen mit einer Infografik eine genaue Zusammenfassung des Textinhalts im Bild.
Der Abschnitt "Text-to-Image-Generierung" ermöglicht das Testen mit benutzerdefinierten Eingabeaufforderungen. Das Modell erzeugt fünf Variationen, die einige Minuten dauern können.
Die erzeugten Bilder sind in Qualität und Detail mit stabilen Diffusion xl vergleichbar. Eine komplexere Eingabeaufforderung wird nachstehend auch getestet, was die Fähigkeit des Modells zeigt, komplizierte Beschreibungen zu bearbeiten.
Eingabeaufforderung Beispiel: (detaillierte Beschreibung eines Auges mit verzierter Umgebung)
Für umfassende Tests bietet Deepseeks Umarmungsräume (Chat With Janus-Pro-7B
) den Zugriff auf die vollständigen Modellfunktionen. Die Genauigkeit des Janus Pro -Modells ist auch bei kleineren Varianten bemerkenswert.
In diesem Tutorial wurde die multimodalen Funktionen von Janus Pro detailliert und gab Anweisungen zum Einrichten einer lokalen, effizienten Lösung für den privaten Gebrauch. Weiteres Lernen ist über unseren Leitfaden zur Feinabstimmung Deepseek R1 (Argumentationsmodell) verfügbar.
Das obige ist der detaillierte Inhalt vonSo verwenden Sie Deepseek Janus-Pro lokal. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!