2025年1月27日に発売された
Deepseek Janus Pro 1Bは、テキストプロンプトから画像を処理および生成するために構築された高度なマルチモーダルAIモデルです。テキストに基づいて画像を理解して作成する機能により、この10億パラメーターバージョン(1b)は、テキストから画像の生成や画像の理解など、幅広いアプリケーションに効率的なパフォーマンスを提供します。さらに、写真から詳細なキャプションを作成することに優れているため、創造的なタスクと分析タスクの両方に汎用性の高いツールになります。
学習目標
その機能を強化するアーキテクチャと重要な機能を分析します。
- 基礎となるデザインとそのパフォーマンスへの影響の調査。
- 検索された世代(RAG)システムを構築するための段階的なガイド。
Deepseek Janus Proを実世界のアプリケーションに使用しています。
- Deepseek Janus ProがAI駆動型のソリューションを最適化する方法を理解してください
-
- この記事は、
データサイエンスブログの一部として公開されました。
目次学習目標deepseek janus pro?
Janus Pro 1Bの主要な機能とデザインの側面
-
-
Unified Transformer Architecture
- 最適化されたトレーニング戦略
-
-
- deepseek janus pro 1bモデル
- ステップ1。ステップ1。 PDF
ステップ4。保存された画像からのクエリと検索
- ステップ5。JanusProモデル
- ステップ6をロードします。
deepseek janus proとは?-
Deepseek Janus Proは、テキストと画像処理を統合し、テキストプロンプトから画像を理解し、生成できるマルチモーダルAIモデルです。 10億パラメーターバージョン(1B)は、テキストからイメージの生成や画像理解タスクなどのアプリケーション間で効率的なパフォーマンスを実現するように設計されています。
- DeepseekのJanus Proシリーズでは、利用可能な主要なモデルは
「Janus Pro 1B」と「Janus Pro 7B」です。これは、主にパラメーターサイズが大きく、7Bモデルが大幅に大きく、テキストから画像の生成タスクのパフォーマンスを向上させます。Janus Pro 1b の重要な機能と設計の側面
- アーキテクチャ:Janus Proは統一されたトランスアーキテクチャを使用しますが、視覚エンコードを個別の経路に分離して、画像の理解と作成タスクの両方でパフォーマンスを向上させます。
機能- :テキストプロンプトに基づいて、画像の理解と新しいものの生成の両方に関連するタスクに優れています。 384×384の画像入力をサポートします
画像エンコーダ
:画像理解タスクの場合、ヤヌスはSiglipを使用して画像をエンコードします。 Siglipは、Clipのフレームワークを使用しているが、損失関数をペアワイズシグモイド損失に置き換える画像埋め込みモデルです。画像生成のために、JanusはLlamagenの既存のエンコーダを使用しています。Llamagenは、自動脱着画像生成モードです。ラマゲンは、大規模な言語モデルの次のトークン予測パラダイムを視覚生成に適用する画像世代モデルのファミリーです-
オープンソース:
MITライセンスの下でGitHubで入手できます。モデルの使用は、DeepSeekモデルライセンスによって支配されています。
-
また、読んでください:Deepseek Janus Pro 7b?にアクセスする方法
画像理解と生成のための分離されたアーキテクチャ
Janus-Proは、画像の理解と生成の両方に単一の視覚エンコーダーに依存するのではなく、視覚エンコードのために別々の特殊な経路を採用することにより、以前のマルチモーダルモデルから分岐します。
画像理解エンコーダー。

画像生成エンコーダー。この経路は、テキストの説明に基づいて画像を合成します。
この分離されたアーキテクチャは、タスク固有の最適化を促進し、解釈と創造的統合の間の対立を緩和します。独立したエンコーダーは、統合された自己回帰トランスによって処理される入力機能を解釈します。これにより、マルチモーダルの理解と生成コンポーネントの両方が、最も適切なエンコード方法を独立して選択できます。
また読む:DeepseekのJanus ProがDall-E 3に対してどのように積み重なっているのか?
モデルアーキテクチャの重要な機能
-
1。視覚的理解と生成のためのデュアルパスウェイアーキテクチャ
-
視覚的理解経路:マルチモーダル理解タスクの場合、Janus ProはSiglip-Lを視覚エンコーダとして使用します。これは、最大384×384の解像度の画像入力をサポートします。この高解像度サポートにより、モデルはより多くの画像の詳細をキャプチャできるようになり、視覚的理解の精度が向上します。
視覚生成経路:画像生成タスクの場合、Janus Proは16のダウンサンプリングレートを備えたLlamagenトークネザーを使用して、より詳細な画像を生成します。
2。統一されたトランスアーキテクチャ
共有変圧器のバックボーンは、使用されています。生の入力を機能に変換するための独立したエンコーディング方法は、統一された自己回帰トランスによって処理されます。
3。最適化されたトレーニング戦略
以前のヤヌスのトレーニングでは、モデルに3段階のトレーニングプロセスがありました。最初の段階は、アダプターと画像ヘッドのトレーニングに焦点を当てました。第2段階では、統一された事前トレーニングを処理しました。その間、理解エンコーダと生成エンコーダーを除くすべてのコンポーネントがパラメーターを更新します。ステージIIIは、トレーニング中に理解エンコーダのパラメーターをさらにロック解除することにより、ステージIIに基づいて監督された微調整を取り上げました。
これはJanus Pro:
で改善されました
ステージIのトレーニングステップを増やすことにより、Imagenetデータセットで十分なトレーニングを許可します。
さらに、ステージIIでは、テキストからイメージまでの生成トレーニングのために、イメージネットデータが完全に削除されました。代わりに、通常のテキストから画像へのデータを使用して、モデルをトレーニングして、密な説明に基づいて画像を生成しました。これは、トレーニング効率と全体的なパフォーマンスを改善することがわかった。
さあ、Deepseek Janus Pro:- を使用してマルチモーダルラグを構築しましょう
Deepseek Janus Pro 1Bモデルを備えた
マルチモーダルラグ-
次の手順では、Deepseek Janus Pro 1Bモデルに基づいて画像を照会するためのマルチモーダルRAGシステムを構築します。
ステップ1。必要なライブラリをインストール
ステップ2。画像の埋め込みを保存するためのモデル
Byaldiは、マルチモーダルRAGシステムをセットアップするための使いやすいフレームワークを提供します。上記のコードから見たように、visual機能を使用して効率的なドキュメントインデックスを作成するために設計されたモデルであるColqwen2をロードします。
ステップ3。画像のロードPDF
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
ログイン後にコピー
ログイン後にコピー
このPDFを使用して、次のステップでRAGシステムを照会して構築します。上記のコードでは、画像PDFとベクトルを保存します。
ステップ4。保存された画像からのクエリと検索import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
ログイン後にコピー
ログイン後にコピー
PDFのページからの関連ページは取得され、クエリに基づいてoutput_image.pngとして保存されます。ステップ5。JanusProモデルをロードします
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
ログイン後にコピー
ログイン後にコピー
-
vlchatprocessor.from_pretrained(「deepseek-ai/janus-pro-1b」)マルチモーダル入力(画像とテキスト)を処理するために前処理されたプロセッサをロードします。このプロセッサは、モデルの入力データ(テキストや画像など)を処理および準備します。
トークン剤はvlchatprocessorから抽出されます。テキスト入力をトークン化し、テキストをモデルに適した形式に変換します。
- automodelforcausallm.from_pretrained(“ deepseek-ai/janus-pro-1b”)
- 事前に訓練されたJanus Proモデル、特に因果言語モデリング用。
また、、マルチモーダル会話形式
は、ユーザーがテキストと画像の両方を入力する場所で設定されています。
load_pil_images(conversation)- は、会話オブジェクトにリストされている画像をロードし、PIL画像形式に変換する可能性が高い関数です。これは、Pythonでの画像処理に一般的に使用されます。
プロセッサこれは、マルチモーダルプロセッサのインスタンスです(deepseek janus proモデルの
vlchatprocessor- )。テキストと画像データの両方を入力として取得します。
prepare_inputs_embeds(inputs)
は、処理された入力(入力にテキストと画像の両方を含む)を取得し、モデルが応答を生成するために必要な埋め込みを準備するメソッドです。
-
ステップ6。出力生成
コードは、準備された入力埋め込み(テキストと画像)を使用して、DeepSeek Janus Pro 1Bモデルから応答を生成します。パディング、開始/終了トークン、最大トークンの長さ、キャッシュとサンプリングの使用など、いくつかの構成設定を使用します。応答が生成された後、トークンIDをトークン剤を使用して人間の読み取り可能なテキストにデコードします。デコードされた出力は、回答変数に保存されます
このcolabノートブックにはコード全体が存在しています。-
クエリの出力
別のクエリの出力
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
ログイン後にコピー
ログイン後にコピー
「フランスの収益はどうでしたか?」
上記の応答は正確ではありません。関連するページはthecolqwen2レトリバーによって取得されましたが、deepseek janus pro 1bモデルはページから正確な回答を生成できませんでした。正確な答えは2億ドルでなければなりません
別のクエリの出力
“「FY20の開始以来のプロモーションの数は何ですか? "
上記の応答は、PDFに記載されているテキストと一致するため、正しいです。
結論
結論として、Deepseek Janus Pro 1Bモデルは、画像の理解と生成タスクの両方を最適化する分離されたアーキテクチャを備えたマルチモーダルAIの大幅な進歩を表しています。これらのタスクに個別のビジュアルエンコーダーを利用し、トレーニング戦略を改善することにより、Janus Proはテキストから画像の生成と画像分析のパフォーマンスを強化します。この革新的なアプローチ(Deepseek Janus Proを使用したマルチモーダルRAG)とオープンソースのアクセシビリティは、AI駆動型の視覚的理解と作成におけるさまざまなアプリケーションの強力なツールになります。
キーテイクアウト
二重経路を備えたマルチモーダルAI :Janus Pro 1Bは、テキストと画像処理の両方を統合し、画像理解(Siglip)と画像生成(Llamagen)に個別のエンコーダーを使用して、タスク固有のパフォーマンスを強化します。
-
分離されたアーキテクチャ:モデルは、視覚エンコードを異なる経路に分離し、画像の理解と生成のための独立した最適化を可能にし、タスクの処理における競合を最小限に抑えます。
- Unified Transformer Backbone :共有トランスアーキテクチャは、テキストと画像の特徴をマージし、より効果的なAIパフォーマンスのためにマルチモーダルデータ融合を合理化します。
改善されたトレーニング戦略:- Janus Proの最適化されたトレーニングアプローチには、ステージIのステップの増加と、ステージIIでの専門的なテキストから画像データの使用が含まれ、トレーニング効率と出力品質を大幅に向上させます。
オープンソースのアクセシビリティ:
Janus Pro 1Bは、MITライセンスの下でGitHubで利用でき、さまざまなAI駆動型アプリケーションでの広範な使用と適応を奨励しています。
-
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
よくある質問-
q1。 Deepseek Janus Pro 1Bとは? Deepseek Janus Pro 1Bは、テキストと画像処理の両方を統合するように設計されたマルチモーダルAIモデルであり、テキストの説明から画像を理解し、生成できます。テキストから画像の生成や画像理解などのタスクで効率的なパフォーマンスのための10億パラメーターを備えています。 Janus Pro 1Bのアーキテクチャはどのように機能しますか? Janus Proは、分離された視覚エンコードを備えた統一されたトランスアーキテクチャを使用しています。これは、画像の理解と生成のために別々の経路を採用し、各タスクのタスク固有の最適化を可能にすることを意味します。 Janus Proのトレーニングプロセスは、以前のバージョンとどのように異なりますか? Janus Proは、トレーニングステップを増やし、特殊なテキストから画像へのデータを支持してImagenetデータセットを削除し、効率とパフォーマンスの向上のためのより良い微調整に焦点を当てることにより、以前のトレーニング戦略を改善します。 q4。 Janus Pro 1Bを使用することで、どのようなアプリケーションが恩恵を受けることができますか? Janus Pro 1Bは、画像とテキスト処理機能の両方を必要とするテキストから画像の生成、画像理解、およびマルチモーダルAIアプリケーションを含むタスク
Ansなどの他のモデルと比較してどのように比較されますか。 DeepSeekによると、Janus-Pro-7BはGenevalやDPG-BenchなどのベンチマークでDall-E 3を上回ります。 Janus-Proは、理解/生成を分離し、安定した画像生成のデータ/モデルをスケールし、統一され、柔軟で費用効率の高い構造を維持します。どちらのモデルもテキストからイメージの生成を実行しますが、Janus-Proも画像キャプションを提供します。
以上がDeepseek Janus ProでマルチモーダルRAGを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。