Deepseek Janus Pro 1B, yang dilancarkan pada 27 Januari 2025, adalah model AI multimodal maju yang dibina untuk memproses dan menghasilkan imej dari arahan teks. Dengan keupayaannya untuk memahami dan membuat imej berdasarkan teks, versi parameter 1 bilion (1B) ini memberikan prestasi yang cekap untuk pelbagai aplikasi, termasuk generasi teks-ke-imej dan pemahaman imej. Di samping itu, ia cemerlang dalam menghasilkan kapsyen terperinci dari foto, menjadikannya alat yang serba boleh untuk kedua -dua tugas kreatif dan analisis.
Objektif Pembelajaran
- Menganalisis seni bina dan ciri -ciri utama yang meningkatkan keupayaannya.
- meneroka reka bentuk asas dan kesannya terhadap prestasi.
- Panduan langkah demi langkah untuk membina sistem generasi pengambilan semula (RAG).
- menggunakan model Deepseek Janus Pro 1 bilion untuk aplikasi dunia nyata.
- memahami bagaimana Deepseek Janus Pro mengoptimumkan penyelesaian yang didorong oleh AI.
Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data
Jadual Kandungan Objektif Pembelajaran Apa yang Deepseek Janus Pro?
Pemahaman & Generasi Visual
Strategi Transformer Unified
- Strategi Latihan yang Dioptimumkan
-
- RAG MULTIMODAL dengan Deepseek Janus Pro 1B Model
PDF
Langkah 4. Permintaan & pengambilan semula dari gambar yang disimpan -
Langkah 5. LOAD Janus Pro Model -
Langkah 6.
- Apakah Deepseek Janus Pro?
- Deepseek Janus Pro adalah model AI multimodal yang mengintegrasikan teks dan pemprosesan imej, yang mampu memahami dan menghasilkan imej dari petunjuk teks. Versi parameter 1 bilion (1b) direka untuk prestasi yang cekap merentasi aplikasi seperti penjanaan teks-ke-imej dan tugas pemahaman imej.
- Di bawah siri Janus Pro Deepseek, model utama yang ada ialah
"Janus Pro 1b" dan "Janus Pro 7b",
yang berbeza terutamanya dalam saiz parameter mereka, dengan model 7b yang jauh lebih besar dan menawarkan prestasi yang lebih baik dalam tugas-tugas yang lebih baik. Ciri -ciri Utama dan Aspek Reka Bentuk Janus Pro 1B
- Arkitek : Janus Pro menggunakan seni bina pengubah bersatu tetapi merumuskan pengekodan visual ke dalam laluan berasingan untuk meningkatkan prestasi dalam pemahaman imej dan tugas penciptaan.
Keupayaan
- : ia cemerlang dalam tugas yang berkaitan dengan pemahaman imej dan penjanaan yang baru berdasarkan teks. Ia menyokong input imej 384 × 384.
Pengekod imej - : Untuk tugas pemahaman imej, Janus menggunakan siglip untuk mengodkan imej. Siglip adalah model penyembuhan imej yang menggunakan kerangka klip tetapi menggantikan fungsi kerugian dengan kehilangan sigmoid pasangan. Untuk penjanaan imej, Janus menggunakan encoder sedia ada dari Llamagen, mod penjanaan imej autoregressive. Llamagen adalah keluarga model generasi imej yang menerapkan paradigma ramalan yang akan datang dari model bahasa yang besar kepada generasi visual
Sumber Terbuka: - Ia boleh didapati di GitHub di bawah lesen MIT, dengan penggunaan model yang ditadbir oleh lesen model DeepSeek.
Juga baca: Bagaimana untuk mengakses Deepseek Janus Pro 7b?
Arsitektur Decoupled untuk Imej Pemahaman & Generasi
Janus-Pro menyimpang dari model multimodal sebelumnya dengan menggunakan laluan yang berasingan dan khusus untuk pengekodan visual, dan bukannya bergantung pada pengekod visual tunggal untuk pemahaman imej dan generasi.
Pengekodan pemahaman imej.
Laluan ini mengekstrak ciri -ciri semantik dari imej.
- Pengekod Generasi Imej. Laluan ini mensintesis imej berdasarkan deskripsi teks.
-
Senibina yang dipadam ini memudahkan pengoptimuman khusus tugas, mengurangkan konflik antara tafsiran dan sintesis kreatif. Pengekod bebas menafsirkan ciri -ciri input yang kemudian diproses oleh pengubah autoregressive bersatu. Ini membolehkan kedua -dua pemahaman multimodal dan komponen generasi secara bebas memilih kaedah pengekodan yang paling sesuai.
Juga Baca: Bagaimana DeepSeek's Janus Pro menumpuk terhadap Dall-E 3?
Ciri -ciri utama Senibina Model
1. Senibina Dual-Pathway untuk Pengertian Visual & Generasi
Laluan pemahaman visual:
Untuk tugas pemahaman multimodal, Janus Pro menggunakan SIGLIP-L sebagai pengekod visual, yang menyokong input imej sehingga 384 × 384 resolusi. Sokongan resolusi tinggi ini membolehkan model untuk menangkap lebih banyak butiran imej, dengan itu meningkatkan ketepatan pemahaman visual.
- Laluan Generasi Visual : Untuk tugas penjanaan imej, Janus Pro menggunakan tokenizer Llamagen dengan kadar downsampling sebanyak 16 untuk menghasilkan imej yang lebih terperinci.
-
2. Senibina Transformer Bersepadu
Backbone Transformer Dikongsi adalah FusionText dan Ciri Imej Fusion. Kaedah pengekodan bebas untuk menukar input mentah ke dalam ciri -ciri diproses oleh pengubah autoregressive bersatu.
3. Strategi Latihan Dioptimumkan
Dalam latihan Janus sebelumnya, terdapat proses latihan tiga peringkat untuk model. Peringkat pertama memberi tumpuan kepada latihan penyesuai dan kepala imej. Peringkat kedua mengendalikan pretraining bersatu, di mana semua komponen kecuali pengekod pemahaman dan pengekod generasi telah dikemas kini parameter mereka. Peringkat III meliputi penalaan halus yang diselia, membina Peringkat II dengan membuka lagi parameter pengekod pemahaman semasa latihan.
Ini diperbaiki dalam Janus Pro:
dengan meningkatkan langkah -langkah latihan di Peringkat I, membolehkan latihan yang mencukupi pada dataset Imagenet. -
Selain itu, dalam Peringkat II, untuk latihan generasi teks-ke-imej, data ImageNet telah dijatuhkan sepenuhnya. Sebaliknya data teks-ke-imej biasa digunakan untuk melatih model untuk menghasilkan imej berdasarkan deskripsi padat. Ini didapati meningkatkan kecekapan latihan dan prestasi keseluruhan. -
Sekarang, mari membina kain multimodal dengan Deepseek Janus Pro:
Multimodal Rag dengan Model Deepseek Janus Pro 1B
Dalam langkah -langkah berikut, kami akan membina sistem RAG multimodal untuk menanyakan pada imej berdasarkan model DeepSeek Janus Pro 1B.
Langkah 1. Pasang perpustakaan yang diperlukan
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
Salin selepas log masuk
Salin selepas log masuk
Langkah 2. Model untuk menyimpan embeddings imej
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Salin selepas log masuk
Salin selepas log masuk
Byaldi memberikan rangka kerja yang mudah digunakan untuk menubuhkan sistem kain multimodal. Seperti yang dilihat dari kod di atas, kami memuatkan ColQwen2, yang merupakan model yang direka untuk pengindeksan dokumen yang cekap menggunakan ciri -ciri visual.
Langkah 3. Memuatkan imej pdf
# Use ColQwen2 to index and store the presentation
index_name = "image_index"
model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"),
index_name=index_name,
store_collection_with_index=True, # Stores base64 images along with the vectors
overwrite=True
)
Salin selepas log masuk
Kami menggunakan PDF ini untuk menanyakan dan membina sistem RAG pada langkah seterusnya. Dalam kod di atas, kami menyimpan imej PDF bersama -sama dengan vektor.
Langkah 4. Pertanyaan & pengambilan semula dari gambar yang disimpan
query = "How many clients drive more than 50% revenue?"
returned_page = model1.search(query, k=1)[0]
import base64
# Example Base64 string (truncated for brevity)
base64_string = returned_page['base64']
# Decode the Base64 string
image_data = base64.b64decode(base64_string)
with open('output_image.png', 'wb') as image_file:
image_file.write(image_data)
Salin selepas log masuk
Halaman yang relevan dari halaman pdf diambil dan disimpan sebagai output_image.png berdasarkan pertanyaan.
Langkah 5. Beban Janus Pro Model
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
Salin selepas log masuk
Salin selepas log masuk
- vlchatprocessor.from_pretrained ("DeepSeek-ai/janus-pro-1b") memuatkan pemproses pretrain untuk mengendalikan input multimodal (imej dan teks). Pemproses ini akan memproses dan menyediakan data input (seperti teks dan imej) untuk model.
- Tokenizer diekstrak dari vlchatprocessor. Ia akan memaksimumkan input teks, menukar teks ke dalam format yang sesuai untuk model.
- automelforcausallm.from_pretrained ("DeepSeek-ai/janus-pro-1b") memuatkan model Janus Pro yang terlatih, khususnya untuk pemodelan bahasa kausal.
Juga, - Format perbualan multimodal disediakan di mana pengguna memasukkan kedua -dua teks dan imej.
- load_pil_images (perbualan) adalah fungsi yang mungkin memuat imej yang disenaraikan dalam objek perbualan dan mengubahnya menjadi format imej PIL, yang biasanya digunakan untuk pemprosesan imej di Python.
pemproses - Berikut adalah contoh pemproses multimodal ( vlchatprocessor dari model Deepseek Janus Pro), yang mengambil kedua -dua teks dan data imej sebagai input.
- prepar_inputs_embeds (input) adalah kaedah yang mengambil input yang diproses (input mengandungi kedua -dua teks dan imej), dan menyediakan embeddings yang diperlukan untuk model untuk menghasilkan respons.
Langkah 6. Generasi output
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Salin selepas log masuk
Salin selepas log masuk
Kod ini menghasilkan respons dari model DeepSeek Janus Pro 1B menggunakan embeddings input yang disediakan (teks dan imej). Ia menggunakan beberapa tetapan konfigurasi seperti padding, token permulaan/akhir, panjang token max, dan sama ada menggunakan caching dan pensampelan. Selepas tindak balas dijana, ia menguraikan id token kembali ke dalam teks yang boleh dibaca manusia menggunakan tokenizer. Output yang disahdirkan disimpan dalam pembolehubah jawapan.
keseluruhan kod hadir dalam buku nota Colab ini.
output untuk pertanyaan
output untuk pertanyaan lain
"Apakah pendapatan di Perancis?"
Sambutan di atas tidak tepat walaupun halaman yang berkaitan telah diambil oleh Retriever TheColQwen2, model Deepseek Janus Pro 1B tidak dapat menghasilkan jawapan yang tepat dari halaman. Jawapan yang tepat mestilah $ 2B.
output untuk pertanyaan lain
"" Apakah bilangan promosi sejak awal FY20? "
tindak balas di atas adalah betul kerana ia sepadan dengan teks yang disebutkan dalam pdf. KESIMPULAN
Kesimpulannya, model Deepseek Janus Pro 1B mewakili kemajuan yang signifikan dalam Multimodal AI, dengan seni bina yang dipadam yang mengoptimumkan pemahaman imej dan tugas -tugas generasi. Dengan menggunakan encoder visual yang berasingan untuk tugas-tugas ini dan menyempurnakan strategi latihannya, Janus Pro menawarkan prestasi yang lebih baik dalam penjanaan teks-ke-imej dan analisis imej. Pendekatan inovatif ini (RAG Multimodal dengan Deepseek Janus Pro), digabungkan dengan akses sumber terbuka, menjadikannya alat yang berkuasa untuk pelbagai aplikasi dalam pemahaman dan penciptaan visual yang didorong oleh AI.
Takeaways Key
multimodal AI dengan jalur ganda
: Janus Pro 1B mengintegrasikan kedua-dua teks dan pemprosesan imej, menggunakan pengekod berasingan untuk pemahaman imej (SIGLIP) dan penjanaan imej (llamagen), meningkatkan prestasi khusus tugas.
- Arsitektur Decoupled: Model ini memisahkan pengekodan visual ke dalam laluan yang berbeza, membolehkan pengoptimuman bebas untuk pemahaman dan generasi imej, dengan itu meminimumkan konflik dalam tugas pemprosesan.
- Backbone Transformer Unified : Senibina Transformer Berkongsi menggabungkan ciri -ciri teks dan imej, menyelaraskan gabungan data multimodal untuk prestasi AI yang lebih berkesan.
Pendekatan Latihan yang Dioptimumkan Janus Pro termasuk peningkatan langkah-langkah di Peringkat I dan penggunaan data teks-ke-imej khusus di Peringkat II, dengan ketara meningkatkan kecekapan latihan dan kualiti output. -
Kebolehcapaian sumber terbuka:
Janus Pro 1B boleh didapati di GitHub di bawah lesen MIT, menggalakkan penggunaan dan penyesuaian yang meluas dalam pelbagai aplikasi yang didorong oleh AI.
-
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan pada budi bicara penulis.
-
Soalan Lazim
Q1. Apakah Deepseek Janus Pro 1B?
Ans. Deepseek Janus Pro 1B adalah model AI multimodal yang direka untuk mengintegrasikan kedua -dua teks dan pemprosesan imej, mampu memahami dan menghasilkan imej dari deskripsi teks. Ia mempunyai 1 bilion parameter untuk prestasi yang cekap dalam tugas seperti penjanaan teks-ke-imej dan pemahaman imej. Q2. Bagaimanakah seni bina Janus Pro 1B berfungsi?
Ans. Janus Pro menggunakan seni bina pengubah bersatu dengan pengekodan visual yang dipadamkan. Ini bermakna ia menggunakan laluan berasingan untuk pemahaman dan generasi imej, yang membolehkan pengoptimuman khusus tugas untuk setiap tugas. Q3. Bagaimanakah proses latihan Janus Pro berbeza dari versi terdahulu?
Ans. Janus Pro meningkatkan strategi latihan terdahulu dengan meningkatkan langkah-langkah latihan, menjatuhkan dataset ImageNet memihak kepada data teks-ke-imej khusus, dan memberi tumpuan kepada penalaan yang lebih baik untuk meningkatkan kecekapan dan prestasi. Q4. Apa jenis aplikasi yang boleh mendapat manfaat daripada menggunakan Janus Pro 1B? Ans. Janus Pro 1B amat berguna untuk tugas-tugas yang melibatkan generasi teks-ke-imej, pemahaman imej, dan aplikasi AI multimodal yang memerlukan keupayaan pemprosesan imej dan teks
Q5. Bagaimanakah Janus-Pro dibandingkan dengan model lain seperti Dall-e 3? Ans. Janus-Pro-7b mengungguli Dall-E 3 dalam tanda aras seperti Geneval dan DPG-Bench, menurut Deepseek. Janus-Pro memisahkan pemahaman/generasi, skala data/model untuk penjanaan imej yang stabil, dan mengekalkan struktur bersatu, fleksibel, dan cekap. Walaupun kedua-dua model melakukan penjanaan teks-ke-imej, Janus-Pro juga menawarkan imej imej, yang Dall-E 3 tidak.
Atas ialah kandungan terperinci Meningkatkan kain multimodal dengan Deepseek Janus Pro. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!