Deepseek Janus ProでマルチモーダルRAGを強化します-AI-php.cn

2025年1月27日に発売された

Deepseek Janus Pro 1Bは、テキストプロンプトから画像を処理および生成するために構築された高度なマルチモーダルAIモデルです。テキストに基づいて画像を理解して作成する機能により、この10億パラメーターバージョン（1b）は、テキストから画像の生成や画像の理解など、幅広いアプリケーションに効率的なパフォーマンスを提供します。さらに、写真から詳細なキャプションを作成することに優れているため、創造的なタスクと分析タスクの両方に汎用性の高いツールになります。

学習目標

基礎となるデザインとそのパフォーマンスへの影響の調査。
検索された世代（RAG）システムを構築するための段階的なガイド。
Deepseek Janus ProがAI駆動型のソリューションを最適化する方法を理解してください
この記事は、

データサイエンスブログの一部として公開されました。 目次学習目標deepseek janus pro？

Janus Pro 1Bの主要な機能とデザインの側面

Unified Transformer Architecture
最適化されたトレーニング戦略
- deepseek janus pro 1bモデル
- ステップ1。ステップ1。 PDF
ステップ4。保存された画像からのクエリと検索
ステップ5。JanusProモデル
- ステップ6をロードします。
- DeepseekのJanus Proシリーズでは、利用可能な主要なモデルは
```
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
```
ログイン後にコピー
ログイン後にコピー
このPDFを使用して、次のステップでRAGシステムを照会して構築します。上記のコードでは、画像PDFとベクトルを保存します。
ステップ4。保存された画像からのクエリと検索
```
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
```
ログイン後にコピー
ログイン後にコピー
PDFのページからの関連ページは取得され、クエリに基づいてoutput_image.pngとして保存されます。
ステップ5。JanusProモデルをロードします
```
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
```
ログイン後にコピー
ログイン後にコピー
- vlchatprocessor.from_pretrained（「deepseek-ai/janus-pro-1b」）マルチモーダル入力（画像とテキスト）を処理するために前処理されたプロセッサをロードします。このプロセッサは、モデルの入力データ（テキストや画像など）を処理および準備します。
- automodelforcausallm.from_pretrained（“ deepseek-ai/janus-pro-1b”）
- 事前に訓練されたJanus Proモデル、特に因果言語モデリング用。また、、マルチモーダル会話形式
別のクエリの出力
```
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
```
ログイン後にコピー
ログイン後にコピー
「フランスの収益はどうでしたか？」

上記の応答は正確ではありません。関連するページはthecolqwen2レトリバーによって取得されましたが、deepseek janus pro 1bモデルはページから正確な回答を生成できませんでした。正確な答えは2億ドルでなければなりません別のクエリの出力

“「FY20の開始以来のプロモーションの数は何ですか？ "

上記の応答は、PDFに記載されているテキストと一致するため、正しいです。

結論

結論として、Deepseek Janus Pro 1Bモデルは、画像の理解と生成タスクの両方を最適化する分離されたアーキテクチャを備えたマルチモーダルAIの大幅な進歩を表しています。これらのタスクに個別のビジュアルエンコーダーを利用し、トレーニング戦略を改善することにより、Janus Proはテキストから画像の生成と画像分析のパフォーマンスを強化します。この革新的なアプローチ（Deepseek Janus Proを使用したマルチモーダルRAG）とオープンソースのアクセシビリティは、AI駆動型の視覚的理解と作成におけるさまざまなアプリケーションの強力なツールになります。
キーテイクアウト

二重経路を備えたマルチモーダルAI
1. 分離されたアーキテクチャ：モデルは、視覚エンコードを異なる経路に分離し、画像の理解と生成のための独立した最適化を可能にし、タスクの処理における競合を最小限に抑えます。
2. Unified Transformer Backbone ：共有トランスアーキテクチャは、テキストと画像の特徴をマージし、より効果的なAIパフォーマンスのためにマルチモーダルデータ融合を合理化します。
3. Janus Proの最適化されたトレーニングアプローチには、ステージIのステップの増加と、ステージIIでの専門的なテキストから画像データの使用が含まれ、トレーニング効率と出力品質を大幅に向上させます。オープンソースのアクセシビリティ：
4. この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
5. q1。 Deepseek Janus Pro 1Bとは？ Deepseek Janus Pro 1Bは、テキストと画像処理の両方を統合するように設計されたマルチモーダルAIモデルであり、テキストの説明から画像を理解し、生成できます。テキストから画像の生成や画像理解などのタスクで効率的なパフォーマンスのための10億パラメーターを備えています。 Janus Pro 1Bのアーキテクチャはどのように機能しますか？ Janus Proは、分離された視覚エンコードを備えた統一されたトランスアーキテクチャを使用しています。これは、画像の理解と生成のために別々の経路を採用し、各タスクのタスク固有の最適化を可能にすることを意味します。 Janus Proのトレーニングプロセスは、以前のバージョンとどのように異なりますか？ Janus Proは、トレーニングステップを増やし、特殊なテキストから画像へのデータを支持してImagenetデータセットを削除し、効率とパフォーマンスの向上のためのより良い微調整に焦点を当てることにより、以前のトレーニング戦略を改善します。 q4。 Janus Pro 1Bを使用することで、どのようなアプリケーションが恩恵を受けることができますか？ Janus Pro 1Bは、画像とテキスト処理機能の両方を必要とするテキストから画像の生成、画像理解、およびマルチモーダルAIアプリケーションを含むタスク
  Ansなどの他のモデルと比較してどのように比較されますか。 DeepSeekによると、Janus-Pro-7BはGenevalやDPG-BenchなどのベンチマークでDall-E 3を上回ります。 Janus-Proは、理解/生成を分離し、安定した画像生成のデータ/モデルをスケールし、統一され、柔軟で費用効率の高い構造を維持します。どちらのモデルもテキストからイメージの生成を実行しますが、Janus-Proも画像キャプションを提供します。